Aproximación de difusión a la deriva genética

Estoy leyendo del libro de texto clásico Principios de genética de poblaciones, Hartl y Clark (pdf aquí ).

Introducción

Dejar F ( pag , X , t ) denota la distribución de la frecuencia alélica X en el momento t sabiendo que en ese momento t = 0 la frecuencia era pag . Se puede modelar el cambio en esta distribución con el tiempo usando la ecuación directa de Kolmogorov

F ( pag , X , t ) t = [ METRO ( X ) F ( pag , X , t ) ] X + 1 2 2 [ V ( X ) F ( pag , X , t ) ] X 2

donde METRO ( X ) es el "parámetro de deriva", que representa la selección natural (por lo tanto, en ausencia de la selección METRO ( X ) = 0 ), y V ( X ) es el "parámetro de difusión", que representa la deriva genética. El parámetro de difusión es V ( X ) = X ( 1 X ) 2 norte , donde norte es el tamaño de la población.

Pregunta

¿Por qué es cierto que V ( X ) = X ( 1 X ) 2 norte ?

Doy la bienvenida a explicaciones intuitivas y pruebas matemáticas.

Pensamientos

Creo que se deriva del modelo de deriva genética de Wright-Fisher, donde la distribución de la frecuencia de alelos en la próxima generación viene dada por una distribución binomial.

¿Cuál es la definición de N en V(x)?
norte es el tamaño de la población. Gracias por notarlo. Pregunta editada.

Respuestas (1)

Efectivamente, procede del modelo de Wright-Fisher, concretamente de su aproximación al proceso de difusión.

Si la población es de tamaño norte , entonces en la generación t el numero de alelos es A ( t ) , por lo que la frecuencia de los alelos es X ( t ) = A ( t ) / ( 2 norte ) , asumiendo el caso diploide. Entonces Wright-Fisher dice que:

A ( t + 1 ) A ( t ) Compartimiento ( 2 norte , X ( t ) )
Entonces, la distribución del conteo de la próxima generación, dada la última, se distribuye binomialmente (bajo apareamiento aleatorio). Se puede encontrar que, para una variable aleatoria binomialmente distribuida b Compartimiento ( metro , pag ) , la media y la varianza están dadas por :
mi [ b ] = metro pag & V [ b ] = metro pag ( 1 pag )
Así, conseguimos que
mi [ A ( t + 1 ) A ( t ) ] = 2 norte X ( t ) & V [ A ( t + 1 ) A ( t ) ] = 2 norte X ( t ) [ 1 X ( t ) ]
Aplicar X ( t ) = A ( t ) / ( 2 norte ) , vemos eso
mi [ X ( t + 1 ) X ( t ) ] = 1 2 norte mi [ A ( t + 1 ) A ( t ) ] = X ( t ) V [ X ( t + 1 ) X ( t ) ] = 1 ( 2 norte ) 2 V [ A ( t + 1 ) A ( t ) ] = X ( t ) [ 1 X ( t ) ] 2 norte
usando el hecho de que V [ C X ] = C 2 V [ X ] .

Podemos relacionar esto con el delantero Kolmogorov de la siguiente manera. Recuerde que la distribución binomial se puede aproximar mediante una distribución normal , con media m y varianza σ 2 dada por la media y la varianza de la binomial. Esto nos dice que:

X ( t + d t ) X ( t ) norte ( X ( t ) , ( d t ) X ( t ) [ 1 X ( t ) ] / ( 2 norte ) )
Las propiedades de la distribución normal implican entonces que
Δ X t = X ( t + d t ) X ( t ) norte ( 0 , σ 2 ( X t ) d t )
donde σ 2 ( X t ) = X ( t ) [ 1 X ( t ) ] / ( 2 norte ) . Esto implica la siguiente igualdad (en distribución):
Δ X t = σ ( X t ) Δ W t
donde Δ W t norte ( 0 , d t ) . Como d t 0 , obtenemos una ecuación diferencial estocástica ,
d X t = σ ( X t ) d W t
donde las soluciones son procesos aleatorios de Markov (a diferencia de, por ejemplo, ODE donde solo hay una solución y es un camino determinista; piense en ello como una ODE ruidosa), específicamente en este caso una difusión de Ito . Tenga en cuenta que el SDE no tiene d t componente ya que la media del incremento era 0 . Si consideramos la función de densidad para el proceso aleatorio pag ( X , t ) , debe satisfacer la ecuación de Fokker-Planck (Forward Kolmogorov) :
t pag ( X , t ) = X X [ pag ( X , t ) σ 2 ( X ) / 2 ]
lo que da una distribución de probabilidad sobre el valor de frecuencia alélica en cada punto de tiempo (dado un valor inicial que no he especificado aquí). Tenga en cuenta que V ( X ) = σ 2 ( X ) .


En términos de intuición, no estoy muy seguro. Esencialmente V ( X ) mide cuánta perturbación en la frecuencia alélica se puede esperar que suceda en cada generación debido a efectos puramente aleatorios, es decir, deriva genética. Observe que no hay perturbación cuando X = 0 o X = 1 , es decir, no pueden ocurrir cambios aleatorios si nadie o todos tienen el alelo. Observe también que esta varianza es exactamente la varianza de una distribución de Bernoulli . Es como si hubiéramos destilado el modelo de nivel individual a un modelo de nivel de población que simplemente observa la frecuencia de la elección binaria de la presencia de alelos, supongo. La varianza (ruido) es máxima cuando la frecuencia es 1 / 2 . Es una especie de alejar el alelo del medio, aumentando el ruido cuando uno va allí; uno podría esperar que (si se ejecuta el tiempo suficiente) cualquier modelo de este tipo golpeará y se atascará en 0 o 1 (No estoy seguro si esto es cierto). Busqué un poco si había otras interpretaciones interesantes del sde consideradas aquí (por ejemplo, en física), pero no pude encontrar ninguna. Básicamente, sería equivalente a una ecuación de calor, extendiéndose bajo alguna función potencial controlada por σ .


Tu pregunta está estrechamente relacionada con esta . Mi respuesta sigue en gran medida a Tataru et al, Inferencia estadística en el modelo de Wright-Fisher utilizando datos de frecuencia de alelos .