Estadístico confundido sobre el tipo de datos SNP exacto

Tengo antecedentes estadísticos (no biológicos), y estoy muy confundido acerca de qué son exactamente los "datos" asociados con un SNP. A continuación, explicaré las cosas lo mejor que pueda; corríjame si algún punto está mal o no está claro. Supongamos que estamos trabajando con humanos, ya que lo siguiente cambiará según la especie. (Suponga que todos los casos de interés son bialélicos).

Cuando un locus tiene un alelo en al menos un cromosoma, la medida AA, Aa o aa se denomina SNP (pronunciado "snip"). Por lo tanto, usando lenguaje estadístico, los SNP son factores de tres niveles: estos son los datos asociados con un SNP . Como se dijo anteriormente, si el factor tiene 1 nivel (es decir, es solo aa o solo AA), entonces no es un SNP.

A veces, para los humanos, parece que la gente dice que un SNP es en realidad solo un alelo (por lo tanto, un factor de dos niveles, a o A). ¿Cómo es esto posible? ¿Las personas a veces solo miden un alelo en lugar de ambos para obtener el genotipo?

¿Podría proporcionar la fuente donde se refieren solo a un alelo?
@Hachiloni No hay una fuente, pero este es un ejemplo: journals.plos.org/plosone/article?id=10.1371/… . Consulte el párrafo que comienza "En segundo lugar, comparamos tres codificaciones SNP..."
Ha expuesto su conocimiento de los SNP de manera admirable, excepto por una cosa importante. No indica lo que significa SNP. El nombre describe el concepto: polimorfismo de un solo nucleótido. Un polimorfismo es literalmente una diferencia en la forma (aquí una diferencia en la forma física) de un objeto. El objeto es la secuencia de ADN de un gen, y la diferencia está en un solo nucleótido. No se define por si los alelos son Aa, AA o aa, simplemente por el hecho de que en esta posición se encuentran diferentes bases (generalmente 2, pero pueden ser 3 o 4). Haz lo que quieras con tus estadísticas.
Gracias David. Ese es un punto muy útil: ignoré por completo de dónde proviene el término "SNP". (He editado la respuesta para abordar que estoy enfocado en el caso bialélico). No estoy enfocado aquí en qué hacer con los datos (es decir, qué estadísticas hacer), solo cómo se ven los datos en sí. Creo que esta es una pregunta biológica ya que ciertamente no es estadística. Si los datos fueran "a" o "A", ¿pensaría que son datos SNP? ¿O los datos deben ser "aa","Aa" o "AA" para ser datos SNP?
No sé. Pero seguramente hay una vasta literatura al respecto. Leí (descremadamente) artículos en Nature sobre grandes proyectos de genoma comparativo que se refieren a la incidencia de SNP. Hubo uno en febrero. La impresión que tengo es que solo están mirando si se encuentran diferentes bases en puntos particulares y cuántas hay en los genomas que han muestreado. Realmente tendría que encontrar las referencias a sus métodos y verificarlo usted mismo (a menos que alguien más aquí lo sepa).
@David Gracias de nuevo por su útil perspectiva.

Respuestas (4)

SNP no es un tipo de datos específico sino un fenómeno biológico. La abreviatura "Polimorfismo de nucleótido único" solo significa que existe una variabilidad (entre individuos) en una sola letra en una posición específica en la secuencia de ADN. Depende del hablante cómo decida describir la variabilidad; ya sea que elijan centrarse en las posibles secuencias y decir, por ejemplo, "Solo hay A o T en esta posición" o se centran en los posibles genotipos humanos y explican todas las combinaciones (AA, AT, TT).

Lo que constituye como datos SNP depende completamente de la pregunta de investigación, el organismo utilizado (diploide/haploide/poliploide) y el diseño experimental.

El artículo que vincula en su comentario utiliza líneas de avena y no individuos de la población consanguínea. La avena, como la arabidopsis, es naturalmente altamente autopolinizadora, por lo que crear líneas endogámicas altamente homocigóticas es relativamente fácil. En este caso, es razonable que los investigadores esperen solo genotipos AA o aa en cada línea.

Editar: ya que solicitó más ejemplos en los que el investigador elige centrarse en los alelos en lugar de los genotipos. La distribución de muchos genotipos de SNP se ajusta a las ecuaciones de Hardy-Weinberg . Si ese es el caso, la frecuencia de genotipos se puede calcular a partir de una frecuencia alélica en la población. El investigador podría preguntar: "¿La frecuencia del alelo es diferente en la población/grupo 1 de la población/grupo 2?" Recogen datos de los individuos del grupo 1 (AA, AA, Aa, Aa, aa) y del grupo 2 (Aa, Aa, aa, aa, aa). Deciden tratar cada alelo como una medida independiente (que no depende del individuo del que proviene) y sondean los datos: grupo 1 (AAAAAAaaaa), grupo 2 (AAaaaaaaaa) y luego hacen una prueba binomial simple para responder a su pregunta.

Nota: incluso si no se cumple el equilibrio de Hardy-Weinberg, las preguntas sobre la frecuencia de los alelos siguen siendo preguntas biológicas válidas (con un uso/interpretación ligeramente diferente en el futuro).

Gracias. ¿Podría proporcionar otros ejemplos en los que sea razonable centrarse solo en el valor de un alelo (cuando la ploidía es al menos 2) para constituir un SNP? Su argumento para el artículo vinculado parece ser que los investigadores que se preocupan por el genotipo solo pueden medir un alelo, lo cual es interesante pero evita el problema central que tengo.
Gracias por incluir la interesante edición. No es para desangrarte aquí, pero desafortunadamente debido a mi limitado historial biológico, cualquier alusión que hagas se me escapa por completo. ¿Podría aclarar con ejemplos lo que está describiendo en la última oración sobre cuándo no se cumple HW?
Puedo referirlo a la academia Khan sobre el principio HW . HW tiene varias suposiciones, cualquiera de las cuales puede no ser cierta en una población real. Lo que quiero decir es que incluso en esta situación todavía tiene sentido hablar de la frecuencia alélica. Por ejemplo, cuando una especie es altamente autopolinizadora (como la avena), lo que da como resultado más homocigotos de los esperados de HW, aún podemos preguntar: ¿hay un alelo más frecuente en, p. población de altura?

Creo que las respuestas anteriores brindan mucha información valiosa y relevante, pero permítanme agregar prospectos adicionales:

  • Como se señaló, SNP es un polimorfismo de un solo nucleótido , mientras que la notación AA, Aa, aa, etc. puede referirse a muchos otros tipos de mutación: por ejemplo, estos podrían ser genes completos, que difieren en muchas ubicaciones. Otro tipo común de mutación son las inserciones/deleciones, donde un gen puede carecer de segmentos completos (en lugar de contener diferentes nucleótidos).
  • Los SNP se utilizan en contextos particulares, donde el cambio del genoma es insignificante: por ejemplo, cuando se trata un genoma humano altamente conservado o cuando se trata un genoma variable en una escala de tiempo corta, donde solo ocurren unos pocos cambios. En este caso, tomamos el genoma inicial/más frecuente como referencia y describimos las desviaciones de él como SNP ("snips"). Esto no siempre es posible, por ejemplo, cuando hay múltiples alelos presentes (un solo nucleótido puede estar en cuatro estados, A, C, G, T y todos estos pueden tener que tenerse en cuenta, por ejemplo, al analizar la evolución de los virus). ).
  • Dependiendo del problema, uno puede querer discutir la genética de poblaciones de un organismo en términos de genotipos o en términos de alelos, incluso cuando un solo organismo lleva múltiples alelos (por ejemplo, dos copias en un organismo diploide). AA, Aa, aa son genotipos, mientras que A, a son alelos. SNP es un cambio en el alelo más que en un genotipo. (Pero admito que el lenguaje biológico a menudo es impreciso).
Wow gracias. Esto es increíblemente útil y llena muchos vacíos que faltan para mí.
@ user257566 También vengo de un entorno no biológico, por lo que probablemente encontré problemas similares para comprender estas cosas. Para genética de poblaciones recomiendo también el librito de Gillespie. Es algo incompleto, pero podría ser más fácil de resolver que las cosas reales de la generación pop: amazon.com/Population-Genetics-John-H-Gillespie/dp/0801880092

Déjame darte un cálculo del dorso del sobre. El tamaño del genoma humano es de 3 mil millones de pares de bases (BP). Hay alrededor de 30 mil genes en el genoma humano. Por lo tanto, el tamaño de un gen sería de alrededor de 100 mil BP (el ADN tiene regiones no codificantes, regiones reguladoras, etc. También un gen varía en tamaño desde unos cientos de BP hasta más de 2 millones. En aras de la simplicidad, puede ceñirse a este cálculo). Por otro lado, hay 5 millones de SNP en el genoma humano. Por lo tanto, Habría un SNP en cada 600 BP.

Entonces, podemos decir con certeza que habría genes que tienen más de un SNP. Mi sugerencia sería, como señaló @BagiM, no confundir los conceptos microscópicos con los macroscópicos.

Gracias por compartir tu punto de vista. Por "a o A" me refiero a un alelo en un solo locus, por "aa o Aa o AA", me refiero a un par de alelos que constituyen un genotipo (en un ser humano). ¿Podría aclarar qué quiere decir con cambiar entre microscópico y macroscópico?
SNP es un concepto microscópico y Allele es un concepto macroscópico. Alelo es un término muy amplio y la base molecular de este término podría ser numerosa (@Vadim lo discutió en su respuesta). El término fue acuñado por el mismo Mendel. Eso también mucho antes de que se descubriera el ADN. "un SNP es en realidad solo un alelo": es una declaración incorrecta. Podría haber múltiples SNP dentro de un alelo.
Gracias por aclarar mi terminología, eso es muy útil. Me refiero específicamente a un alelo como una variante en un par de bases, y un genotipo (para humanos) como un par de dichos alelos todavía en un par de bases pero ahora en dos cromosomas. Entonces, mi pregunta es específicamente sobre cuál (entre estas dos cosas microscópicas) se usa para representar los SNP.
Ninguno. Los SNP no se definen en términos de dos cromosomas. Se compara una enorme colección de secuencias de ADN y se encuentran posiciones específicas en la secuencia para mostrar este polimorfismo (que llamamos SNP), mientras que otras regiones de la secuencia permanecen relativamente conservadas.
Ok, por ninguno te refieres a lo primero? ¿El loci único?
SNP o no es algo independiente de con cuántos cromosomas o alelos esté trabajando. Para mí, su pregunta no suena válida. ¿Podría intentar reformular la pregunta? ¿Le estás preguntando por un alelo o cromosoma específico? Si es así, busque cuáles son los SNP definidos en ese alelo o cromosoma de un banco de datos del genoma.

Como se dijo anteriormente, si el factor tiene 1 nivel (es decir, es solo aa o solo AA), entonces no es un SNP.

Si hay alguna variación en esa base en su población, entonces es un SNP, incluso si no está mirando a un heterocigoto.

De todos modos, si estás hablando de un SNP, la gente generalmente se referirá a él por su base, no por el nombre del alelo que genera. (Y en realidad, muchas veces, los alelos no se nombran simplemente como A y a. Esa notación es útil cuando se trata de problemas perfectamente mendelianos de la tarea de genética de la escuela secundaria, pero en el mundo real, la mayoría de los datos no se ajustan a ese paradigma.

Gracias. De hecho, ese pasaje citado dice si no hay variación (es decir, si solo se ha observado aa o solo AA). Además, ha pasado un tiempo desde que estuve en la escuela secundaria, por lo que es útil saber qué se cubre allí para el contexto. Sin embargo, no estoy hablando de cómo nombrar los SNP (personalmente, estoy familiarizado con los números rs para eso). En cambio. Estoy hablando de qué valores toman. Los nombres de las cosas me son más útiles aquí que el concepto que representan.
¿Por qué tendría notación para diferentes alelos si no hubiera variación en ninguna población?