¿Qué fracción de sitios se espera que sean polimórficos?

Pregunta

Considere una secuencia de ADN muy larga (eventualmente infinita) de sitios neutrales. Considere una población panmíctica de tamaño constante norte con una tasa de mutación por sitio de m donde todos los individuos tienen exactamente la misma aptitud.

¿Cuál es la fracción de sitios que esperaríamos que fueran polimórficos en la población (SNP)?

Motivación detrás de esta pregunta

Hago esta pregunta para verificar los resultados de las simulaciones que ejecuto. Por ejemplo, ejecuto una simulación con X ( X variará a continuación) sitios neutrales, con una tasa de mutación por sitio m = 10 9 y un tamaño de población de norte = 100 . Corro las simulaciones durante 10.000 generaciones. No hay recombinación. Cuando el número de sitios:

  • X = 10 3 obtengo 0 SNP
  • X = 10 4 obtengo 1 SNP
  • X = 10 5 obtengo 3 SNP
  • X = 10 6 Obtengo 25 SNP
  • X = 10 7 Obtengo 238 SNP

¿Hay un error en mi modelo o es lo que esperaríamos dados los parámetros?

En el genoma humano, 1 de cada 300 sitios son polimórficos (SNP) ( ref. ). Esta es una frecuencia de SNP que es 100 veces mayor que la que observo en mis simulaciones. Sin embargo, tenga en cuenta que la suposición de neutralidad y las suposiciones demográficas no se mantendrían perfectamente y este resultado podría alejarse bastante de la expectativa neutral. Mi objetivo no es reproducir algo que se parezca al genoma humano, sino solo reproducir las expectativas neutrales por el momento.

Echa un vistazo a https://en.wikipedia.org/wiki/Tajima's_D . Proporciona una estimación del número de sitios de segregación para una población bajo un modelo de mutación neutral.
@putnampp Suena realmente interesante. ¿Significa que el número esperado de SNP en una muestra de tamaño norte = norte (Muestreo a toda la población) es mi [ S ] = 4 norte m i = 1 norte 1 1 i ? Por lo tanto, en mi caso norte = 100 , m = 10 9 , mi [ S ] 1 / 481939 . Por lo tanto, fuera de 10 7 sitios que esperaría tener 20.75 SNP. ¿Está bien? Esto es 10 veces menos de lo que observo.
Estaría de acuerdo con tu comentario. Si tuviera que utilizar toda la población como tamaño de muestra, esperaría encontrar aproximadamente el número que sugiere. He escrito un software de simulación de ejemplo que es capaz de realizar tales escenarios evolutivos ( Cloto ). También puede comparar sus números con MS .
OK suena bien. Voy a echar un vistazo a cloto. Si quieres, haz una respuesta breve a partir de tus comentarios repitiendo el cálculo que hice. ¡Y con suerte obtendrá suficiente reputación para comentar en el futuro gracias a esta respuesta! Le agradecería que vincule el documento que describe a cloto también. ¡Gracias! ¡Tengo que entender por qué tengo tanto polimorfismo ahora!

Respuestas (3)

Reiterando los comentarios anteriores. Eche un vistazo a la D de Tajima. Proporciona una estimación del número de sitios de segregación para una población bajo un modelo de mutación neutral.

La forma general de estimación para una población diploide es mi [ S ] = 4 norte m i = 0 norte 1 1 i . Aquí, la tasa de mutación es por genoma, no por sitio, por lo que m = L 10 9 dónde L es el tamaño del genoma. Estimar los sitios de segregación de toda una población de norte = norte = 100 con tamaño de genoma de L = 10 7 donde cada sitio tiene una tasa de mutación por genoma de m = 10 2 uno esperaría que mi [ S ] 20.75 . Entonces, sus números parecen más altos de lo esperado.

He escrito un software de simulación de ejemplo que es capaz de realizar tales escenarios evolutivos ( manuscrito de Cloto ). De manera similar, puede comparar sus números con una población generada usando MS .

La fracción de sitios polimórficos que existen en una población depende de la biología del organismo. Por ejemplo, esperaría encontrar diferentes tasas de polimorfismo en plantas relacionadas que tienen diferentes sistemas de reproducción, por ejemplo, en Silene [ 1 ]. También se espera que los cuellos de botella pasados ​​reduzcan los polimorfismos [ 2 ]. Por lo tanto, la respuesta a su pregunta dependería de la especie y la población exactas que esté observando.

Gracias por tu respuesta. Sí, soy muy consciente de que el patrón de selección (frecuencia dependiente, selección purificadora, ambiente espacial o temporalmente heterogéneo, LD, etc.) así como los patrones demográficos (cuello de botella, estructura de población, expansión del rango, etc.) afectan estos polimorfismo. Estoy interesado en predicciones teóricas asumiendo un montón de cosas. Hice esas suposiciones un poco más obvias en mi publicación.

incluimos un script para calcular esto en material complementario

http://onlinelibrary.wiley.com/doi/10.1111/mec.13034/full

....sitio de segregación único por locus o hasta un máximo de cuatro SNP, como se espera para datos genómicos de lectura corta (consulte el script R adjunto para la estimación).

¿Podrías contarnos un poco más sobre el método? Es más un comentario ahora.