Dentro y entre la diversidad de clases alélicas

Estoy leyendo Charlesworth et al. 1997 _ Hablan de diversidad dentro y entre clases alélicas.

Diversidades de nucleótidos ( π ) en cada sitio neutral se estimaron a partir de la media de 2 z t ( 1 z t ) , sobre introducciones replicadas en el sitio de variantes individuales, donde zt es la frecuencia de la variante neutra en el tiempo t, y la suma es sobre todos los tiempos hasta que se produce la fijación o la pérdida.

La diversidad genética total en los sitios neutrales ( π T ) también se descompuso en dentro y entre clases alélicas en el locus polimórfico. Diversidad dentro de las clases alélicas, que se escribirá aquí como π A , se estimó a partir de la media de 2 ( X t ( 1 X t ) + y t ) ( 1 y t ) ) dónde X t y y t son las frecuencias de la variante neutra dentro de la primera y segunda clase alélica, respectivamente. La diversidad entre clases alélicas con respecto al locus polimórfico se calculó como la diferencia entre los valores de diversidad total y π A

Tenga en cuenta que los paréntesis no coinciden, ¡pero esto es lo que está escrito en el papel!

¿Por qué estoy confundido acerca de este texto?

Estoy confundido acerca del término clase alélica. Primero creo que hay algo elegante aquí y creo que simplemente podemos reemplazar el término "clase alélica" por "alelo". pero luego cuando vi la ecuación para π A Me doy cuenta de que la frecuencia de las dos clases alélicas no necesariamente suma 1 (aunque consideramos solo dos clases alélicas).

También me confundí un poco acerca de la diferencia entre π y π T pero creo que solo usaron dos notaciones para el mismo pensamiento ( π = π T )

En la jerga de la genética de poblaciones, la diversidad solo significa heterocigosidad esperada. π T tiene sentido para mi. Es solo la heterocigosidad promedio. ( 2 z ( 1 z ) ) calculado sobre todos los pasos de tiempo. Tal vez una forma más intuitiva de decirlo sería integrar en lugar de sumar en el tiempo en lugar de pasos de tiempo.

Pregunta

Puedo leer la ecuación para π A pero no consigo ninguna intuición detrás de lo que significa. Por ejemplo, no tengo idea de por qué debería llamarse diversidad de clases dentro de los alelos. Donde hace 2 ( X ( 1 X ) + y ) ( 1 y ) ¿viene de? Todo mi problema podría reducirse a la definición de clase alélica .

EDITAR

El término allelic classse define en Innan y Tajima (1997)

Suponga que hay dos nucleótidos, digamos A y T, en un sitio particular. Entonces, podemos dividir las secuencias de ADN en dos clases: una clase incluye secuencias con A y la otra incluye secuencias con T en este sitio. Llamamos a tal clase una clase alélica

( Slatkin 1996 también podría ayudar).

Todavía no estoy muy seguro de qué es el within allelic class variance. Tal vez lo sea: tome la secuencia más común en la clase alélica considerada. Para cada secuencia, calcule el número de diferencias por pares a la secuencia más común y eleve este valor al cuadrado. Sume todas las secuencias y divida por el número de secuencias. En forma matemática sería: 1 2 norte i 2 norte ( D i ) 2 , dónde norte es el tamaño de la población y D i es el número de diferencias por pares entre la secuencia i y la secuencia más común en la clase alélica considerada. ¿Te suena bien?

@AMR Eliminé mi larga lista de comentarios...

Respuestas (2)

Por la forma en que he leído lo que ha escrito, z(1-z) traducido a una oración sería la frecuencia de la variante neutra (z) multiplicada por la frecuencia de todas las demás variantes posibles (1 - z) en el momento particular t.

La diversidad de nucleótidos es entonces el promedio de 2 veces la suma de todas las frecuencias de las variantes neutras (z) por la frecuencia de todas las demás variantes posibles (1-z) para todos los períodos de tiempo hasta que ya no haya un cambio en la secuencia o se pierde el alelo (lo que puede suceder a lo largo del tiempo evolutivo, especialmente si la clase alélica es una variante perjudicial, o el alelo heterocigoto proporciona suficiente expresión para enmascarar).

Para mí, parece que el resultado será la probabilidad de que la variante neutral exista a lo largo del tiempo, que debería ser un número entre 0 y 1 . Si z fuera 1 , eso implicaría que la variante neutral es siempre el caso, por lo que la frecuencia de otras variantes es 0 , lo que hace que 2* 1(1-1) = 0 , lo que tiene sentido para mí, ya que significaría que no hay diversidad de nucleótidos. . Esa secuencia es siempre esa secuencia, por lo que no hay diversidad de secuencias.

Como parece que se trata de distribuciones de frecuencia, creo que la diversidad genética total implica la probabilidad de todas las diferentes clases de alelos que componen un alelo. Entonces, si tiene una clase uno que tiene la frecuencia de x y una clase dos con una frecuencia de y, parece que la diversidad general sería la probabilidad de la variante neutral de x y la probabilidad de la variante neutral de y.

Generalmente, cuando observa la probabilidad de múltiples eventos, multiplicaría la probabilidad de un evento por la probabilidad del otro evento. Como resultado, me inclino a decir que la diversidad de nucleótidos dentro de las clases πA es 2 veces el promedio de la suma de la frecuencia de x por la frecuencia de y , o 2∑ x(1-x)(1-y) + y(1-y) o factorizado 2∑ (x(1-x) + y)(1-y) o en palabras la Diversidad Dentro de Clase (πA)es 2 veces el promedio de la frecuencia de x como variante neutra multiplicada por la frecuencia de todas las demás variantes cuando x es la variante neutra multiplicada por la frecuencia de todas las demás variantes cuando y es la variante neutra más la frecuencia de y como variante neutra multiplicada la frecuencia de todas las demás variantes cuando y es la variante neutra.

Creo que la razón por la que se podría hacer esto es que, por razones de presión selectiva, x podría verse favorecida, por lo que aquellas veces que la variante sea y, algunas de esas variantes (posiblemente todas) serán x, por lo que al multiplicar la diversidad dentro de la clase de x por la frecuencia de todas las variantes cuando la clase es y implica que habrá menos diversidad dentro de la clase que si solo sumas las probabilidades de frecuencia.

Una cosa que haría es hacer una búsqueda para ver si hubo una corrección publicada en este artículo, ya que hubo un error en la fórmula. Eso podría ayudar a aclarar. También tenga en cuenta que podría estar equivocado en mi evaluación ya que no tengo acceso al documento real al que ha hecho referencia.

La mejor de las suertes para resolver esto.

cuando observa la probabilidad de múltiples eventos, multiplicaría la probabilidad de un evento por la probabilidad del otro evento . Esto es cierto si los eventos son independientes, entonces P(X,Y)=P(X)P(Y). De lo contrario, P(X,Y)=P(X|Y)P(Y)=P(Y|X)P(X).
@ddiez Entonces, ¿qué fórmula tiene sentido? Las estadísticas no son mi punto fuerte y estaba tratando de resolver la ecuación con Remi.b, ya que parece que puede haber un error tipográfico en el artículo original. Su fórmula no tenía paréntesis correctamente emparejados y era difícil determinar si debería ser x(1-x) + y(1-y) o (x(1-x) + y)(1-y)? Gracias.
Mi comentario pretende ser solo una extensión de su declaración, para señalar que la fórmula general es la última (es verdadera en todas las situaciones), mientras que la primera solo es verdadera bajo el supuesto de independencia. Pero eso podría estar perfectamente bien en este contexto (no he leído el documento). Veamos la opinión del OP sobre esto.

El término allelic classse define en Innan y Tajima (1997)

Suponga que hay dos nucleótidos, digamos A y T, en un sitio particular. Entonces, podemos dividir las secuencias de ADN en dos clases: una clase incluye secuencias con A y la otra incluye secuencias con T en este sitio. Llamamos a tal clase una clase alélica

Dos elementos que eran engañosos (al menos para mí) en el artículo

  1. Implícitamente , en el artículo de interés ( Charlesworth et al. 1997 ), definen clases alélicas para un sitio que se sabe que está bajo selección (y que solo puede ser bialélico). El concepto de clase alélica no es para un sitio neutral polimórfico que miran, sino siempre para el mismo sitio (el que está bajo selección).

  2. La fórmula tiene un paréntesis adicional. La fórmula real debería ser 2 X t ( 1 X t ) + y t ( 1 y t ) .

Que es X y y ?

Considere un locus polimórfico (bialélico) (que no está bajo selección) y calcule la frecuencia de un alelo en la primera clase alélica (definida para el sitio bajo selección) (esto es X ) y calcule la frecuencia del mismo alelo en la otra clase alélica, esto es y . En otras palabras, considere que el seleccionado tiene dos alelos A y B y el locus neutral tiene dos alelos a y b . X es la frecuencia de secuencias que contienen A que también contienen a y y es la frecuencia de secuencias que contienen B que también contiene a .

significado de la formula

La fórmula es solo la suma de la heterocigosidad esperada dentro de cada clase alélica.

2 X ( 1 X ) + 2 y ( 1 y ) = 2 ( X ( 1 X ) + y ( 1 y ) )
. Luego, solo tenemos que sumar todos los pasos de tiempo durante los cuales el lugar geométrico neutral es polimórfico y obtenemos
π A = i = 1 T 2 ( X t ( 1 X t ) + y t ( 1 y t ) ) = 2 X t ( 1 X t ) + y t ( 1 y t )
, dónde X y y ahora son función del instante (tiempo) considerado y T es el número total de pasos de tiempo.

¿Qué valores pueden π A ¿tomar?

Esta medida toma valores entre 0 y T como todo X t y y t tomar valores entre 0 y 1 (y por lo tanto X ( 1 X ) y y ( 1 y ) tomar valores entre 0 y 0,5). Dividiendo todo por T dará como resultado una medida que está limitada entre 0 y 1.


No hubiera podido entender sin la ayuda de @AMR. Gracias