Pregunta
Considere una secuencia de ADN muy larga (eventualmente infinita) de sitios neutrales. Considere una población panmíctica de tamaño constante con una tasa de mutación por sitio de donde todos los individuos tienen exactamente la misma aptitud.
¿Cuál es la fracción de sitios que esperaríamos que fueran polimórficos en la población (SNP)?
Motivación detrás de esta pregunta
Hago esta pregunta para verificar los resultados de las simulaciones que ejecuto. Por ejemplo, ejecuto una simulación con ( variará a continuación) sitios neutrales, con una tasa de mutación por sitio y un tamaño de población de . Corro las simulaciones durante 10.000 generaciones. No hay recombinación. Cuando el número de sitios:
¿Hay un error en mi modelo o es lo que esperaríamos dados los parámetros?
En el genoma humano, 1 de cada 300 sitios son polimórficos (SNP) ( ref. ). Esta es una frecuencia de SNP que es 100 veces mayor que la que observo en mis simulaciones. Sin embargo, tenga en cuenta que la suposición de neutralidad y las suposiciones demográficas no se mantendrían perfectamente y este resultado podría alejarse bastante de la expectativa neutral. Mi objetivo no es reproducir algo que se parezca al genoma humano, sino solo reproducir las expectativas neutrales por el momento.
Reiterando los comentarios anteriores. Eche un vistazo a la D de Tajima. Proporciona una estimación del número de sitios de segregación para una población bajo un modelo de mutación neutral.
La forma general de estimación para una población diploide es . Aquí, la tasa de mutación es por genoma, no por sitio, por lo que dónde es el tamaño del genoma. Estimar los sitios de segregación de toda una población de con tamaño de genoma de donde cada sitio tiene una tasa de mutación por genoma de uno esperaría que . Entonces, sus números parecen más altos de lo esperado.
He escrito un software de simulación de ejemplo que es capaz de realizar tales escenarios evolutivos ( manuscrito de Cloto ). De manera similar, puede comparar sus números con una población generada usando MS .
La fracción de sitios polimórficos que existen en una población depende de la biología del organismo. Por ejemplo, esperaría encontrar diferentes tasas de polimorfismo en plantas relacionadas que tienen diferentes sistemas de reproducción, por ejemplo, en Silene [ 1 ]. También se espera que los cuellos de botella pasados reduzcan los polimorfismos [ 2 ]. Por lo tanto, la respuesta a su pregunta dependería de la especie y la población exactas que esté observando.
incluimos un script para calcular esto en material complementario
http://onlinelibrary.wiley.com/doi/10.1111/mec.13034/full
....sitio de segregación único por locus o hasta un máximo de cuatro SNP, como se espera para datos genómicos de lectura corta (consulte el script R adjunto para la estimación).
putampp
Remi.b
putampp
Remi.b