Fácil derivación de la aproximación de Kimura para la probabilidad de fijación de una mutación

Question

Fácil derivación de la aproximación de Kimura para la probabilidad de fijación de una mutación

Biología
genética
evolución
genética de poblaciones
biología-teórica

WYSIWYG

La aproximación de Kimura para la probabilidad de fijación de una mutación bajo selección encuentra un uso recurrente en los modelos de genética de poblaciones hasta la fecha. Estoy tratando de entender la base matemática de esta ecuación, pero ninguno de los libros de texto o recursos en línea que he revisado proporcionan una derivación fácil de esta aproximación, sino que simplemente citan el artículo de Kimura de 1962 .

{PAG}_{arreglar} \approx \frac{1 - {mi}^{- 4 norte s pag}}{1 - {mi}^{- 4 norte s}} (1)

$P_\text{fix} \approx \frac{1-e^{-4Nsp} }{1-e^{-4Ns}} \qquad (1)$

Entonces, estaba leyendo el artículo original, pero la derivación provista no me parece clara.

Detalles

Kimura comienza con la definición de probabilidad de cambio en la frecuencia alélica como:

tu (pag, t + d t) = \int F (pag + d pag; d t) tu (pag + d pag, t) d (d pag) (2)

$u(p,t+\delta t) = \int f(p+\delta p; \delta t)\ u(p+\delta p,t)\ d(\delta p) \qquad (2)$

donde (citado exactamente)

$u(p,t)$ es la probabilidad de que un alelo sea fijo en un intervalo de tiempo $t$ dado que su frecuencia inicial es $p$ .
$f(p+\delta p; \delta t)$ es la densidad de probabilidad del cambio de $p$ a $p+\delta p$

Luego usa la aproximación de la serie de Taylor para obtener una ecuación de esta forma:

\frac{\partial tu (pag, t)}{\partial t} = \frac{V}{2} \frac{\partial^{2} tu}{\partial {pag}^{2}} + METRO \frac{\partial tu}{\partial pag} (3)

$\frac{\partial u(p,t)}{\partial t}= \frac{V}{2}\frac{\partial ^2u}{\partial p^2}+M\frac{\partial u}{\partial p} \qquad (3)$

el define $M$ y $V$ como media y varianza del cambio de $p$ por generación. Estos se definen formalmente como:

METRO = \underset{d t \to 0}{límite} \frac{1}{d t} \int (d pag) . F (pag + d pag; d t) . d (d pag)

$M=\lim_{\delta t \to 0} \frac{1}{\delta t}\int (\delta p).\ f(p+\delta p; \delta t).\ d(\delta p)$

V = \underset{d t \to 0}{límite} \frac{1}{d t} \int (d pag)^{2} . F (pag + d pag; d t) . d (d pag)

$V=\lim_{\delta t \to 0} \frac{1}{\delta t}\int (\delta p)^2.\ f(p+\delta p; \delta t).\ d(\delta p)$

( $V$ en realidad debería ser solo el segundo momento según la definición matemática y no la varianza)

Luego resuelve la ecuación 3 en estado estacionario con condiciones de contorno $u(0,t)=0$ y $u(1,t)=1$ para obtener esto:

tu (pag) = \frac{\int_{0}^{pag} GRAMO (X) d X}{\int_{0}^{1} GRAMO (X) d X} (4)

$u(p)=\frac{\displaystyle\int_0 ^p G(x) dx}{\displaystyle\int_0 ^1 G(x) dx} \qquad (4)$

donde:

GRAMO (X) = Exp (- \int \frac{2 METRO}{V} d X)

$G(x)=\exp\left(-\int \frac{2M}{V}dx\right)$

Entendí la derivación hasta este punto.

Luego solo pone:

METRO = s X (1 - X)

$M=sx(1-x)$

V = X (1 - X) / 2 norte

$V=x(1-x)/2N$

y obtiene la ecuación 1.

En breve

¿Existe una derivación fácil para la ecuación 1?
Si no, ¿alguien puede explicarme cómo se aproximaron M y V como se indicó anteriormente?

Nicolás

¡buena pregunta! Podría valer la pena intentar preguntar esto en el intercambio de pilas de matemáticas (o como se llame), ya que la mayoría de los biólogos probablemente no entiendan las matemáticas detrás de esto (me incluyo aquí, y probablemente tenga más experiencia en matemáticas que el promedio)

WYSIWYG

@Nicolai Quizás los matemáticos conozcan muy bien estos métodos, pero me temo que sin contexto, solo conocer los métodos matemáticos no será de ninguna utilidad. Estoy tratando de leer el libro de Kimura que es más detallado. Creo que encontraré una respuesta allí. Cuando lo encuentre, lo publicaré.

Respuestas (1)

Fácil derivación de la aproximación de Kimura para la probabilidad de fijación de una mutación

¡buena pregunta! Podría valer la pena intentar preguntar esto en el intercambio de pilas de matemáticas (o como se llame), ya que la mayoría de los biólogos probablemente no entiendan las matemáticas detrás de esto (me incluyo aquí, y probablemente tenga más experiencia en matemáticas que el promedio)
@Nicolai Quizás los matemáticos conozcan muy bien estos métodos, pero me temo que sin contexto, solo conocer los métodos matemáticos no será de ninguna utilidad. Estoy tratando de leer el libro de Kimura que es más detallado. Creo que encontraré una respuesta allí. Cuando lo encuentre, lo publicaré.

usuario3658307 · Answer 1

Presumiblemente, ha resuelto esto, pero, en caso de que no, es porque la PDE es una ecuación inversa de Kolmogorov , por lo que los coeficientes de primer y segundo orden son la media y la varianza del proceso estocástico subyacente que se está modelando.

En detalle, considere una ecuación diferencial estocástica (que tiene una solución dada por un proceso de difusión de Ito):

d {pag}_{t} = m ({pag}_{t}, t) d t + σ ({pag}_{t}, t) d W_{t}

$dp_t = \mu(p_t,t) dt + \sigma(p_t,t) dW_t$ entonces el siguiente sistema se cumple (bajo algunas condiciones):

- \frac{\partial}{\partial t} tu (pag, t) = m (pag, t) \frac{\partial}{\partial pag} tu (pag, t) + \frac{1}{2} σ^{2} (pag, t) \frac{\partial^{2}}{\partial {pag}^{2}} tu (pag, t)

$-\frac{\partial}{\partial t} u(p,t) = \mu(p,t)\frac{\partial}{\partial p}u(p,t) + \frac{1}{2}\sigma^2(p,t)\frac{\partial^2}{\partial p^2} u(p,t)$ donde

u

$u$ es la densidad de

p

$p$ a

t

$t$ .

Tenga en cuenta que la deriva (media infinitesimal) $M=\mu(p,t)$ y coeficiente de difusión (varianza infinitesimal) $V=\sigma^2(p,t)$ son como en el documento (excepto por el signo negativo, que supongo que es ignorable ya que en su mayoría parece preocuparse solo por el caso cuando $\partial_t u\approx 0$ de todos modos). De hecho, se escriben de manera equivalente:

\begin{aligned} m (pag, t) & = \underset{d t \to 0}{límite} \frac{1}{d t} mi [{pag}_{t + d t} - {pag}_{t} ∣ {pag}_{t} = pag] =: METRO \\ σ^{2} (pag, t) & = \underset{d t \to 0}{límite} \frac{1}{d t} mi [({pag}_{t + d t} - {pag}_{t})^{2} ∣ {pag}_{t} = pag] =: V \end{aligned}

$\begin{align} \mu(p,t) &= \lim_{\delta t\rightarrow 0}\frac{1}{\delta t} \mathbb{E}\left[ p_{t + \delta t} - p_t \mid p_t=p \right] =: M \\ \sigma^2(p,t) &= \lim_{\delta t\rightarrow 0}\frac{1}{\delta t} \mathbb{E}\left[ (p_{t + \delta t} - p_t)^2 \mid p_t=p \right] =: V \\ \end{align}$ como escribe Kimura.

Tenga en cuenta que una aproximación útil de la densidad de transición viene dada por:

\begin{matrix} (TD) & PAG [{pag}_{t + d t} ∣ {pag}_{t}] \approx norte ({pag}_{t + d t} ∣ {pag}_{t} + m ({pag}_{t}, t) d t, σ^{2} ({pag}_{t}, t) d t) \end{matrix}

$\mathbb{P}[p_{t+\delta t} \mid p_t] \approx \mathcal{N}(p_{t+\delta t}\mid p_t + \mu(p_t,t)\,\delta t, \sigma^2(p_t,t) \,\delta t) \tag{TD}$

Ok, entonces todo lo anterior es solo teoría básica de procesos estocásticos. Por lo tanto, si tenemos un modelo estocástico para la dinámica de la población, podemos derivar valores para $M$ y $V$ a partir de él (calculando sus momentos), y esos se trasladarán a la ecuación inversa de Kolmogorov, sobre la cual se basa el trabajo de Kimura.

Aquí es donde se muestra mi ignorancia sobre la dinámica de la población. Sin embargo, dado que Kimura menciona a Fisher y Wright, busqué el modelo de Wright-Fisher. Parece que Kimura está utilizando la aproximación del proceso de difusión del modelo de Wright-Fisher. Este parece ser un modelo bien estudiado y con historia que no puedo describir completamente aquí; en cambio, encontré que el trabajo de Tataru et al, Statistical Inference in the Wright-Fisher Model Using Allele Frequency Data es una excelente descripción del mismo, aunque no pretendo entender mucho de él.

Sin embargo, lo importante es que el cambio en los genes (densidad de transición) puede describirse mediante una distribución binomial. Esto se puede aproximar mediante una distribución normal:

PAG [{pag}_{t + d t} ∣ {pag}_{t}] \approx norte ({pag}_{t + d t} ∣ {pag}_{t} + a ({pag}_{t}) d t, {pag}_{t} (1 - {pag}_{t}) d t)

$\mathbb{P}[p_{t+\delta t} \mid p_t] \approx \mathcal{N}(p_{t+\delta t}\mid p_t + a(p_t) \delta t,\, p_t (1-p_t) \delta t )$ utilizando la aproximación estándar a la binomial. Esto nos da una ecuación de Kolomogorov hacia adelante (no hacia atrás) escrita :

\frac{\partial}{\partial t} tu = - \frac{\partial}{\partial pag} [a ({pag}_{t}) tu ({pag}_{t})] + \frac{1}{2} \frac{\partial^{2}}{\partial {pag}^{2}} [{pag}_{t} (1 - {pag}_{t}) tu ({pag}_{t})]

$\frac{\partial}{\partial t} u = - \frac{\partial}{\partial p}\left[a(p_t) u(p_t) \right] + \frac{1}{2}\frac{\partial^2}{\partial p^2} \left[ p_t(1-p_t)u(p_t) \right]$ Esto básicamente implica que

V = p (1 - p)

$V=p(1-p)$ .

(Noté que otra forma de probar esto es notar que la difusión aproximada de Wright-Fisher (sin ninguna selección, etc.... así que $a\equiv 0$ ) tiene un generador infinitesimal dado por: $\mathfrak{G} f(p) = p(1-p)\partial_{tt} f(p) / 2$ . Esto implica inmediatamente $V=p(1-p)$ . Pero puede ser menos sencillo de entender. )

Sin embargo, de manera confusa, el documento ha cambiado las escalas de tiempo (variables), de modo que $\delta t \leftarrow \Delta t / (2N)$ , y luego establecer $\delta t$ a $1$ (probablemente para que no tuvieran que escribir $2N$ En todas partes). Si deshacemos esta transformación, obtenemos

PAG [{pag}_{t + d t} ∣ {pag}_{t}] \approx norte ({pag}_{t + d t} ∣ {pag}_{t} + a ({pag}_{t}) d t, {pag}_{t} (1 - {pag}_{t}) d t / (2 norte))

$\mathbb{P}[p_{t+\delta t} \mid p_t] \approx \mathcal{N}(p_{t+\delta t}\mid p_t + a(p_t) \delta t,\, p_t (1-p_t) \delta t/(2N) )$ Si compara esto con nuestra densidad de transición aproximada anterior (ecuación (TD)), verá que esto implica:

σ^{2} = V = pag (1 - pag) / [2 norte]

$\sigma^2 = V = p(1-p)/[2N]$ como se desee.

Ahora bien, ¿cuál es la media infinitesimal, es decir, $a$ o $M$ ? Claramente esto depende del modelo de selección, ya que controla cómo el "entorno" afecta de manera determinista al proceso. Kimura describe esto como una "ventaja de selección constante" con coeficiente $s$ . El artículo de Tataru señala que la aproximación de difusión a Wright-Fisher bajo deriva genética, mutación y selección está dada por:

a (pag) = - v pag + ξ (1 - pag) + 2 norte τ pag (1 - pag) [h - (1 - 2 h) pag]

$a(p) = -\nu p + \xi(1-p) + 2N\tau p(1-p)[h-(1-2h)p]$ Si (1) ignoramos la mutación estableciendo

ν = ξ = 0

$\nu=\xi=0$ , (2) eliminan los efectos de dominancia alélica estableciendo

h = 1 / 2

$h=1/2$ , y (3) definir

s := N τ

$s:= N\tau$ , obtenemos:

a (pag) = s pag (1 - pag) =: METRO

$a(p) = s p(1-p) =: M$ que por supuesto vemos al señalar

M = a (p)

$M=a(p)$ partidos

μ

$\mu$ en la ecuación (TD) anterior. (Tenga en cuenta que el

2 N

$2N$ La transformación también ocurrió aquí, pero estaba oculta dentro.

s

$s$ ).

Por lo tanto, hemos derivado donde Kimura's $M$ y $V$ provienen, aunque probablemente no de la manera más simple posible.

Todo lo que queda es derivar la ecuación (de estado estacionario) para $u$ . Supongo que lo haré para completar.

Ignorando los subíndices de estado estacionario, obtenemos:

\begin{aligned} GRAMO (X) & = Exp (- \int \frac{2 METRO}{V} d X) = Exp (- \int 4 s norte d X) = Exp (- 4 s norte X) \\ tu (pag) & = \frac{\int_{0}^{pag} GRAMO (X) d X}{\int_{0}^{1} GRAMO (X) d X} = \frac{\frac{1}{4 norte s} {[Exp (- 4 s norte X)]}_{0}^{pag}}{\frac{1}{4 norte s} {[Exp (- 4 s norte X)]}_{0}^{1}} = \frac{- [Exp (- 4 s norte pag) - 1]}{- [Exp (- 4 s norte) - 1]} \\ = \frac{1 - Exp (- 4 norte s pag)}{1 - Exp (- 4 norte s)} \end{aligned}

$\begin{align} G(x) &= \exp\left( -\int \frac{2M}{V} dx \right) = \exp\left( -\int 4sN dx \right) = \exp\left( -4sNx\right) \\[0.15cm] u(p) &= \frac{\displaystyle \int_0^p G(x) dx}{\displaystyle \int_0^1 G(x) dx} = \frac{\displaystyle \frac{1}{4Ns}\left[ \exp\left( -4sNx\right) \right]_0^p}{\displaystyle \frac{1}{4Ns}\left[ \exp\left( -4sNx\right) \right]_0^1} = \frac{\displaystyle -\left[ \exp\left( -4sNp\right) - 1 \right]}{\displaystyle -\left[ \exp\left( -4sN\right) -1 \right]} \\ &= \frac{1 - \exp(-4Nsp)}{1 - \exp(-4Ns)} \end{align}$ según sea necesario.

Disculpas por cualquier error. (No soy un modelador de dinámica de población ni un matemático, así que por favor señale cualquier problema).

Muchísimas gracias. Realmente no entiendo KBE muy bien. Recuerdo haber leído sobre la ecuación de Fokker-Plank pero no estoy familiarizado con ella en el contexto de la difusión. No tengo experiencia en SDE, por lo que puede llevarme un tiempo entenderlo.
@WYSIWYG No hay problema. Creo que la idea principal es que la frecuencia del alelo se puede modelar mediante un ecualizador diferencial con ruido (SDE), que se aproxima a Wright-Fisher, luego el KBE se sale de eso. Avísame si hay algo en lo que pueda ampliar.

Fácil derivación de la aproximación de Kimura para la probabilidad de fijación de una mutación

WYSIWYG

Detalles

En breve

Nicolás

WYSIWYG

Respuestas (1)

usuario3658307

WYSIWYG

usuario3658307

Dentro y entre la diversidad de clases alélicas

Sobre el coeficiente de selección

Aproximación de difusión a la deriva genética

Genética estadística: frecuencias alélicas que siguen una distribución de Dirichlet

¿Por qué la pendiente de la regresión padre-hijo es igual a la heredabilidad en sentido estricto?

¿Qué fracción de sitios se espera que sean polimórficos?

¿Los alelos mutantes resultan de la mutación del tipo salvaje?

¿Por qué el número de mutaciones por individuo sigue una distribución de Poisson?

¿Libros sobre población o genética evolutiva?

¿Cómo se define la especiación genética?