Fácil derivación de la aproximación de Kimura para la probabilidad de fijación de una mutación

La aproximación de Kimura para la probabilidad de fijación de una mutación bajo selección encuentra un uso recurrente en los modelos de genética de poblaciones hasta la fecha. Estoy tratando de entender la base matemática de esta ecuación, pero ninguno de los libros de texto o recursos en línea que he revisado proporcionan una derivación fácil de esta aproximación, sino que simplemente citan el artículo de Kimura de 1962 .

PAG arreglar 1 mi 4 norte s pag 1 mi 4 norte s ( 1 )

Entonces, estaba leyendo el artículo original, pero la derivación provista no me parece clara.


Detalles

Kimura comienza con la definición de probabilidad de cambio en la frecuencia alélica como:

tu ( pag , t + d t ) = F ( pag + d pag ; d t )   tu ( pag + d pag , t )   d ( d pag ) ( 2 )

donde (citado exactamente)

  • tu ( pag , t ) es la probabilidad de que un alelo sea fijo en un intervalo de tiempo t dado que su frecuencia inicial es pag .
  • F ( pag + d pag ; d t ) es la densidad de probabilidad del cambio de pag a pag + d pag


Luego usa la aproximación de la serie de Taylor para obtener una ecuación de esta forma:

tu ( pag , t ) t = V 2 2 tu pag 2 + METRO tu pag ( 3 )

el define METRO y V como media y varianza del cambio de pag por generación. Estos se definen formalmente como:

METRO = límite d t 0 1 d t ( d pag ) .   F ( pag + d pag ; d t ) .   d ( d pag )

V = límite d t 0 1 d t ( d pag ) 2 .   F ( pag + d pag ; d t ) .   d ( d pag )

( V en realidad debería ser solo el segundo momento según la definición matemática y no la varianza)

Luego resuelve la ecuación 3 en estado estacionario con condiciones de contorno tu ( 0 , t ) = 0 y tu ( 1 , t ) = 1 para obtener esto:

tu ( pag ) = 0 pag GRAMO ( X ) d X 0 1 GRAMO ( X ) d X ( 4 )

donde:

GRAMO ( X ) = Exp ( 2 METRO V d X )

Entendí la derivación hasta este punto.

Luego solo pone:

METRO = s X ( 1 X )
V = X ( 1 X ) / 2 norte

y obtiene la ecuación 1.


En breve

¿Existe una derivación fácil para la ecuación 1?
Si no, ¿alguien puede explicarme cómo se aproximaron M y V como se indicó anteriormente?

¡buena pregunta! Podría valer la pena intentar preguntar esto en el intercambio de pilas de matemáticas (o como se llame), ya que la mayoría de los biólogos probablemente no entiendan las matemáticas detrás de esto (me incluyo aquí, y probablemente tenga más experiencia en matemáticas que el promedio)
@Nicolai Quizás los matemáticos conozcan muy bien estos métodos, pero me temo que sin contexto, solo conocer los métodos matemáticos no será de ninguna utilidad. Estoy tratando de leer el libro de Kimura que es más detallado. Creo que encontraré una respuesta allí. Cuando lo encuentre, lo publicaré.

Respuestas (1)

Presumiblemente, ha resuelto esto, pero, en caso de que no, es porque la PDE es una ecuación inversa de Kolmogorov , por lo que los coeficientes de primer y segundo orden son la media y la varianza del proceso estocástico subyacente que se está modelando.

En detalle, considere una ecuación diferencial estocástica (que tiene una solución dada por un proceso de difusión de Ito):

d pag t = m ( pag t , t ) d t + σ ( pag t , t ) d W t
entonces el siguiente sistema se cumple (bajo algunas condiciones):
t tu ( pag , t ) = m ( pag , t ) pag tu ( pag , t ) + 1 2 σ 2 ( pag , t ) 2 pag 2 tu ( pag , t )
donde tu es la densidad de pag a t .

Tenga en cuenta que la deriva (media infinitesimal) METRO = m ( pag , t ) y coeficiente de difusión (varianza infinitesimal) V = σ 2 ( pag , t ) son como en el documento (excepto por el signo negativo, que supongo que es ignorable ya que en su mayoría parece preocuparse solo por el caso cuando t tu 0 de todos modos). De hecho, se escriben de manera equivalente:

m ( pag , t ) = límite d t 0 1 d t mi [ pag t + d t pag t pag t = pag ] =: METRO σ 2 ( pag , t ) = límite d t 0 1 d t mi [ ( pag t + d t pag t ) 2 pag t = pag ] =: V
como escribe Kimura.

Tenga en cuenta que una aproximación útil de la densidad de transición viene dada por:

(TD) PAG [ pag t + d t pag t ] norte ( pag t + d t pag t + m ( pag t , t ) d t , σ 2 ( pag t , t ) d t )

Ok, entonces todo lo anterior es solo teoría básica de procesos estocásticos. Por lo tanto, si tenemos un modelo estocástico para la dinámica de la población, podemos derivar valores para METRO y V a partir de él (calculando sus momentos), y esos se trasladarán a la ecuación inversa de Kolmogorov, sobre la cual se basa el trabajo de Kimura.

Aquí es donde se muestra mi ignorancia sobre la dinámica de la población. Sin embargo, dado que Kimura menciona a Fisher y Wright, busqué el modelo de Wright-Fisher. Parece que Kimura está utilizando la aproximación del proceso de difusión del modelo de Wright-Fisher. Este parece ser un modelo bien estudiado y con historia que no puedo describir completamente aquí; en cambio, encontré que el trabajo de Tataru et al, Statistical Inference in the Wright-Fisher Model Using Allele Frequency Data es una excelente descripción del mismo, aunque no pretendo entender mucho de él.

Sin embargo, lo importante es que el cambio en los genes (densidad de transición) puede describirse mediante una distribución binomial. Esto se puede aproximar mediante una distribución normal:

PAG [ pag t + d t pag t ] norte ( pag t + d t pag t + a ( pag t ) d t , pag t ( 1 pag t ) d t )
utilizando la aproximación estándar a la binomial. Esto nos da una ecuación de Kolomogorov hacia adelante (no hacia atrás) escrita :
t tu = pag [ a ( pag t ) tu ( pag t ) ] + 1 2 2 pag 2 [ pag t ( 1 pag t ) tu ( pag t ) ]
Esto básicamente implica que V = pag ( 1 pag ) .

(Noté que otra forma de probar esto es notar que la difusión aproximada de Wright-Fisher (sin ninguna selección, etc.... así que a 0 ) tiene un generador infinitesimal dado por: GRAMO F ( pag ) = pag ( 1 pag ) t t F ( pag ) / 2 . Esto implica inmediatamente V = pag ( 1 pag ) . Pero puede ser menos sencillo de entender. )

Sin embargo, de manera confusa, el documento ha cambiado las escalas de tiempo (variables), de modo que d t Δ t / ( 2 norte ) , y luego establecer d t a 1 (probablemente para que no tuvieran que escribir 2 norte En todas partes). Si deshacemos esta transformación, obtenemos

PAG [ pag t + d t pag t ] norte ( pag t + d t pag t + a ( pag t ) d t , pag t ( 1 pag t ) d t / ( 2 norte ) )
Si compara esto con nuestra densidad de transición aproximada anterior (ecuación (TD)), verá que esto implica:
σ 2 = V = pag ( 1 pag ) / [ 2 norte ]
como se desee.

Ahora bien, ¿cuál es la media infinitesimal, es decir, a o METRO ? Claramente esto depende del modelo de selección, ya que controla cómo el "entorno" afecta de manera determinista al proceso. Kimura describe esto como una "ventaja de selección constante" con coeficiente s . El artículo de Tataru señala que la aproximación de difusión a Wright-Fisher bajo deriva genética, mutación y selección está dada por:

a ( pag ) = v pag + ξ ( 1 pag ) + 2 norte τ pag ( 1 pag ) [ h ( 1 2 h ) pag ]
Si (1) ignoramos la mutación estableciendo v = ξ = 0 , (2) eliminan los efectos de dominancia alélica estableciendo h = 1 / 2 , y (3) definir s := norte τ , obtenemos:
a ( pag ) = s pag ( 1 pag ) =: METRO
que por supuesto vemos al señalar METRO = a ( pag ) partidos m en la ecuación (TD) anterior. (Tenga en cuenta que el 2 norte La transformación también ocurrió aquí, pero estaba oculta dentro. s ).

Por lo tanto, hemos derivado donde Kimura's METRO y V provienen, aunque probablemente no de la manera más simple posible.

Todo lo que queda es derivar la ecuación (de estado estacionario) para tu . Supongo que lo haré para completar.

Ignorando los subíndices de estado estacionario, obtenemos:

GRAMO ( X ) = Exp ( 2 METRO V d X ) = Exp ( 4 s norte d X ) = Exp ( 4 s norte X ) tu ( pag ) = 0 pag GRAMO ( X ) d X 0 1 GRAMO ( X ) d X = 1 4 norte s [ Exp ( 4 s norte X ) ] 0 pag 1 4 norte s [ Exp ( 4 s norte X ) ] 0 1 = [ Exp ( 4 s norte pag ) 1 ] [ Exp ( 4 s norte ) 1 ] = 1 Exp ( 4 norte s pag ) 1 Exp ( 4 norte s )
según sea necesario.


Disculpas por cualquier error. (No soy un modelador de dinámica de población ni un matemático, así que por favor señale cualquier problema).

Muchísimas gracias. Realmente no entiendo KBE muy bien. Recuerdo haber leído sobre la ecuación de Fokker-Plank pero no estoy familiarizado con ella en el contexto de la difusión. No tengo experiencia en SDE, por lo que puede llevarme un tiempo entenderlo.
@WYSIWYG No hay problema. Creo que la idea principal es que la frecuencia del alelo se puede modelar mediante un ecualizador diferencial con ruido (SDE), que se aproxima a Wright-Fisher, luego el KBE se sale de eso. Avísame si hay algo en lo que pueda ampliar.