Aproximación de difusión a la deriva genética

Question

Aproximación de difusión a la deriva genética

Biología
genética
evolución
genética de poblaciones
biología-teórica

Remi.b

Estoy leyendo del libro de texto clásico Principios de genética de poblaciones, Hartl y Clark (pdf aquí ).

Introducción

Dejar $f(p,x,t)$ denota la distribución de la frecuencia alélica $x$ en el momento $t$ sabiendo que en ese momento $t=0$ la frecuencia era $p$ . Se puede modelar el cambio en esta distribución con el tiempo usando la ecuación directa de Kolmogorov

\frac{\partial F (pag, X, t)}{\partial t} = - \frac{\partial [METRO (X) \cdot F (pag, X, t)]}{\partial X} + \frac{1}{2} \frac{\partial^{2} [V (X) \cdot F (pag, X, t)]}{\partial X^{2}}

$\frac{\partial f(p,x,t)}{\partial t} = -\frac{\partial [M(x) \cdot f(p,x,t)]}{\partial x}+\frac12\,\frac{\partial^2[V(x) \cdot f(p,x,t)]}{\partial x^2}$

donde $M(x)$ es el "parámetro de deriva", que representa la selección natural (por lo tanto, en ausencia de la selección $M(x)=0$ ), y $V(x)$ es el "parámetro de difusión", que representa la deriva genética. El parámetro de difusión es $V(x) = \frac{x(1-x)}{2N}$ , donde $N$ es el tamaño de la población.

Pregunta

¿Por qué es cierto que $V(x) = \frac{x(1-x)}{2N}$ ?

Doy la bienvenida a explicaciones intuitivas y pruebas matemáticas.

Pensamientos

Creo que se deriva del modelo de deriva genética de Wright-Fisher, donde la distribución de la frecuencia de alelos en la próxima generación viene dada por una distribución binomial.

diez

¿Cuál es la definición de N en V(x)?

Remi.b

N

$N$ es el tamaño de la población. Gracias por notarlo. Pregunta editada.

Respuestas (1)

Aproximación de difusión a la deriva genética

$N$ es el tamaño de la población. Gracias por notarlo. Pregunta editada.

usuario3658307 · Answer 1

Efectivamente, procede del modelo de Wright-Fisher, concretamente de su aproximación al proceso de difusión.

Si la población es de tamaño $N$ , entonces en la generación $t$ el numero de alelos es $A(t)$ , por lo que la frecuencia de los alelos es $x(t) = A(t)/(2N)$ , asumiendo el caso diploide. Entonces Wright-Fisher dice que:

A (t + 1) ∣ A (t) \sim Compartimiento (2 norte, X (t))

$A(t+1)\mid A(t) \sim \text{Bin}(2N,x(t))$ Entonces, la distribución del conteo de la próxima generación, dada la última, se distribuye binomialmente (bajo apareamiento aleatorio). Se puede encontrar que, para una variable aleatoria binomialmente distribuida

b \sim Bin (m, p)

$b\sim \text{Bin}(m,p)$ , la media y la varianza están dadas por :

mi [b] = metro pag & V [b] = metro pag (1 - pag)

$\mathbb{E}[b]=mp\;\;\;\;\;\;\&\;\;\;\;\;\;\mathbb{V}[b]=mp(1-p)$ Así, conseguimos que

mi [A (t + 1) ∣ A (t)] = 2 norte X (t) & V [A (t + 1) ∣ A (t)] = 2 norte X (t) [1 - X (t)]

$\mathbb{E}[A(t+1)\mid A(t)] = 2N x(t) \;\;\;\;\;\;\&\;\;\;\;\;\; \mathbb{V}[A(t+1)\mid A(t)] = 2N x(t)[1-x(t)]$ Aplicar

x (t) = A (t) / (2 N)

$x(t)=A(t)/(2N)$ , vemos eso

\begin{aligned} mi [X (t + 1) ∣ X (t)] & = \frac{1}{2 norte} mi [A (t + 1) ∣ A (t)] = X (t) \\ V [X (t + 1) ∣ X (t)] & = \frac{1}{(2 norte)^{2}} V [A (t + 1) ∣ A (t)] = \frac{X (t) [1 - X (t)]}{2 norte} \end{aligned}

$\begin{align} \mathbb{E}[x(t+1) \mid x(t)] &= \frac{1}{2N}\mathbb{E}[A(t+1)\mid A(t)]= x(t) \\ \mathbb{V}[x(t+1)\mid x(t)] &= \frac{1}{(2N)^2}\mathbb{V}[A(t+1)\mid A(t)] = \frac{x(t)[1-x(t)]}{2N} \end{align}$ usando el hecho de que

V [c X] = c^{2} V [X]

$\mathbb{V}[cX]=c^2\mathbb{V}[X]$ .

Podemos relacionar esto con el delantero Kolmogorov de la siguiente manera. Recuerde que la distribución binomial se puede aproximar mediante una distribución normal , con media $\mu$ y varianza $\sigma^2$ dada por la media y la varianza de la binomial. Esto nos dice que:

X (t + d t) ∣ X (t) \sim norte (X (t), (d t) X (t) [1 - X (t)] / (2 norte))

$x(t+\delta t)\mid x(t) \sim \mathcal{N}(x(t),(\delta t)x(t)[1-x(t)]/(2N))$ Las propiedades de la distribución normal implican entonces que

Δ X_{t} = X (t + d t) - X (t) \sim norte (0, σ^{2} (X_{t}) d t)

$\Delta x_t=x(t+\delta t) - x(t)\sim\mathcal{N}(0,\sigma^2(x_t)\delta t)$ donde

σ^{2} (x_{t}) = x (t) [1 - x (t)] / (2 N)

$\sigma^2(x_t) = x(t)[1-x(t)]/(2N)$ . Esto implica la siguiente igualdad (en distribución):

Δ X_{t} = σ (X_{t}) Δ W_{t}

$\Delta x_t = \sigma(x_t)\Delta W_t$ donde

Δ W_{t} \sim N (0, δ t)

$\Delta W_t\sim \mathcal{N}(0,\delta t)$ . Como

δ t \to 0

$\delta t\rightarrow 0$ , obtenemos una ecuación diferencial estocástica ,

d X_{t} = σ (X_{t}) d W_{t}

$dx_t = \sigma(x_t)dW_t$ donde las soluciones son procesos aleatorios de Markov (a diferencia de, por ejemplo, ODE donde solo hay una solución y es un camino determinista; piense en ello como una ODE ruidosa), específicamente en este caso una difusión de Ito . Tenga en cuenta que el SDE no tiene

d t

$dt$ componente ya que la media del incremento era

0

$0$ . Si consideramos la función de densidad para el proceso aleatorio

p (x, t)

$p(x,t)$ , debe satisfacer la ecuación de Fokker-Planck (Forward Kolmogorov) :

\partial_{t} pag (X, t) = - \partial_{X X} [pag (X, t) σ^{2} (X) / 2]

$\partial_t p(x,t) = -\partial_{xx}[p(x,t)\sigma^2(x)/2]$ lo que da una distribución de probabilidad sobre el valor de frecuencia alélica en cada punto de tiempo (dado un valor inicial que no he especificado aquí). Tenga en cuenta que

V (x) = σ^{2} (x)

$V(x)=\sigma^2(x)$ .

En términos de intuición, no estoy muy seguro. Esencialmente $V(x)$ mide cuánta perturbación en la frecuencia alélica se puede esperar que suceda en cada generación debido a efectos puramente aleatorios, es decir, deriva genética. Observe que no hay perturbación cuando $x=0$ o $x=1$ , es decir, no pueden ocurrir cambios aleatorios si nadie o todos tienen el alelo. Observe también que esta varianza es exactamente la varianza de una distribución de Bernoulli . Es como si hubiéramos destilado el modelo de nivel individual a un modelo de nivel de población que simplemente observa la frecuencia de la elección binaria de la presencia de alelos, supongo. La varianza (ruido) es máxima cuando la frecuencia es $1/2$ . Es una especie de alejar el alelo del medio, aumentando el ruido cuando uno va allí; uno podría esperar que (si se ejecuta el tiempo suficiente) cualquier modelo de este tipo golpeará y se atascará en $0$ o $1$ (No estoy seguro si esto es cierto). Busqué un poco si había otras interpretaciones interesantes del sde consideradas aquí (por ejemplo, en física), pero no pude encontrar ninguna. Básicamente, sería equivalente a una ecuación de calor, extendiéndose bajo alguna función potencial controlada por $\sigma$ .

Tu pregunta está estrechamente relacionada con esta . Mi respuesta sigue en gran medida a Tataru et al, Inferencia estadística en el modelo de Wright-Fisher utilizando datos de frecuencia de alelos .

Aproximación de difusión a la deriva genética

Remi.b

diez

Remi.b

Respuestas (1)

usuario3658307

Dentro y entre la diversidad de clases alélicas

Sobre el coeficiente de selección

Fácil derivación de la aproximación de Kimura para la probabilidad de fijación de una mutación

Genética estadística: frecuencias alélicas que siguen una distribución de Dirichlet

¿Por qué la pendiente de la regresión padre-hijo es igual a la heredabilidad en sentido estricto?

¿Qué fracción de sitios se espera que sean polimórficos?

¿Los alelos mutantes resultan de la mutación del tipo salvaje?

¿Por qué el número de mutaciones por individuo sigue una distribución de Poisson?

¿Libros sobre población o genética evolutiva?

¿Cómo se define la especiación genética?