¿Dónde puedo encontrar un archivo que enumere las diferencias genéticas en humanos?

No sé mucho de genética. Para un proyecto artístico estoy buscando un genoma humano.

Yo lei eso:

Solo alrededor del 0,1% del genoma es diferente entre los individuos, lo que equivale a alrededor de 3 millones de variantes (también conocidas como mutaciones) en el genoma humano promedio. Esto significa que podemos crear un "archivo de diferencias" solo de los lugares en los que un individuo dado difiere del genoma de "referencia" normal. En la práctica, esto generalmente se hace en un formato de archivo .VCF, que en su formato más simple se ve así:

chr20 14370 rs6054257 GA 29 APROBADO 0|0

Donde cada línea usa ~45 bytes, y lo multiplica por ~3 millones de variantes en un genoma dado, y obtiene un tamaño de archivo .VCF de aproximadamente 135,000,000 bytes o ~125 megabytes.

¿Es eso correcto?

¿Conoces una base de datos para descargar un archivo VCF o algo similar? ¡Sería increíble si pudiera proporcionar un enlace al archivo mencionado anteriormente!

Es posible que deba repensar su número, ese número de 0.1% podría ser un poco bajo... Si está interesado en la genética, puede estar interesado en esta respuesta, biology.stackexchange.com/a/41975/16651 . Además, las bases de datos de NCBI están abiertas al público y debería poder descargar lo que quiera de ellas.
Técnicamente hablando (y en términos SI e IEC ) 135 000 000 son 135 Megabytes (MB) o aproximadamente 129 Mebibytes (MiB).

Respuestas (1)

¿Has probado a hurgar en el proyecto de los 1000 genomas?

Prueba este enlace

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/pilot_data/release/2010_07/exon/snps/