¿Cómo puedo encontrar un archivo completo del genoma humano?

Estoy tratando de averiguar cómo puedo descargar un archivo que represente la secuencia completa de ADN humano. No me importa demasiado el formato; puedo escribir código C++ para analizarlo. Sin embargo, FASTA parece un formato simple. Lo que aún no he descubierto es dónde puedo encontrar un archivo completo: he encontrado lo que parecen ser subconjuntos de genes u otras secuencias o cromosomas individuales, pero no hay 46 cromosomas para incluir o son algunos de esos duplicados (es decir, 22 cromosomas + 2 cromosomas sexuales)?

En esta página, encontré esta lista de archivos en "Humano> Ensamblaje del genoma: GRCh38", pero parece estar dividido por cromosoma o algo así. Si es así, ¿combinaría estos? Mi objetivo es mostrar todas las letras a través de un proyector en una pared y quiero poder señalarlas y decirle a alguien que ese es todo el ADN de un ser humano (no un subconjunto). Además, para verificar dos veces, es un "ensamblaje del genoma" lo que quiero, ¿verdad? Por cierto, no me importan las variantes alélicas en este momento.

Considere en su respuesta que no estoy familiarizado con gran parte de la jerga, gracias.

¡Gracias por todas las excelentes respuestas! De hecho, TODOS me ayudaron.

Respuestas (5)

El Centro Nacional de Información Biotecnológica tiene un enlace a un sitio FTP de genomas; en esa página, hay un archivo con la etiqueta .../genomes/H_sapiens (este es un enlace directo a ese directorio).

Hay numerosos archivos en el mismo. Desde el archivo README :

Los datos de secuencia incluyen cromosomas, cóntigos, ARN y proteínas generados a través de los proyectos NCBI Reference Sequence y NCBI Genome Annotation. Los datos de mapas presentados en el recurso Map Viewer también se proporcionan aquí.

¿Solo alrededor de 770M? esperaba que fuera mas grande

No biólogo aquí interviniendo.

@ swbarnes2 tiene un buen punto al señalar el hecho de que (aproximadamente) 3 Giga nucleótidos para mostrar "en una pared" (como dices) incluso con un buen proyector será una tarea difícil. Necesitarás varios proyectores y una gran pared. (Digamos que toma la configuración de policía legible más pequeña, tendrá cada letra en un espacio de 4 * 6 píxeles que, en conjunto, lo llevará a ~ [227k x 342k] píxeles, por lo que alrededor de 35k HD-proyectores)

Lo que me llevó a pensar por qué querrías hacer tal cosa. El más plausible de los cuales es: es para algún tipo de intención artística/cultural. En tal caso, en lugar de mostrar letras (ATGC), recomiendo codificarlo en binario (00,01,10,11) y hacer este código de valor para un píxel de color.

Eso te dejará con una matriz cuadrada de alrededor de 57k píxeles de borde (que sigue siendo enorme) de puntos sombreados en 4 tonos de negro a blanco.

Si quiere ir aún más lejos, la tricromía está al rescate, no haga que los píxeles codifiquen solo un nucleótido cada uno. Hágalos codificar para un "pseudocodón" (triplete) cada uno. Primer nucleótido que define el tono rojo, segundo nucleótido que define el tono verde, último nucleótido que define el tono azul. (cosas RGB de color aditivo simples y sencillas).

-EDITAR- Sabiendo que la noción de codón no es válida y que cualquier nucleótido (excepto el 2 principal y posterior de cada cromosoma) podría ser parte de tres codón distintos (dependiendo de si están en un intrón, exón o incluso empalmados alternativamente) nosotros mira que esta agrupación por 3 no es TAN correcta.

En tal caso, ¿por qué no tomarse aún más libertades? Agrupa tus nucleótidos por 12 (3 grupos de 4) para obtener más profundidad en los tonos de color.

-FIN DE LA SECCIÓN EDITADA-

obtendrá una matriz mucho mejor y significativamente más pequeña de [30k x 30k] (que todavía le llevará una gran pared y algunos proyectores HD ~ 150 pero en este punto puede comprimir la salida con varios métodos y fusionarse píxeles, pero 150 es mucho menos que 35000).

Sé que no brindo soluciones reales a la pregunta formulada (pero realmente creo que @Omen lo hizo bastante bien), pero sentí que tal vez aquí haya alguna idea que valga la pena entregar (a riesgo de hacer el ridículo)

Creo que una pantalla dinámica podría funcionar, mostrando segmentos a la vez...
También consideré aconsejar tener una pantalla dinámica (para ahorrar aún más dinero en proyectores ;p) pero parecía evidente o fuera de lo que entiendo que es el alcance requerido. Sin embargo, ES probablemente la forma más inteligente de mostrarlo todo. Es como mostrar un libro completo, uno debe considerar mostrarlo página por página, no todo en un bloque inflado.
Un pequeño problema... generalmente no llamamos codón a tres nucleótidos juntos a menos que estén realmente en la región codificante de un gen, y estén en el marco que realmente se está traduciendo. La mayor parte del genoma no estaría en "codones".
Como dije en mi mensaje, no soy biólogo, como mucho soy un bioentusiasta. Pero eso es cierto de hecho. Si los nucleótidos están en un intrón (eso no se interpreta en el empalme alternativo), entonces sí, no es parte de un codón. Voy a modificar mi publicación. Sin embargo, para el propósito que describí, aún puede ser parte de un triplete no semántico. Después de todo, si la suposición que afirmé es correcta, entonces agrupar los nucleótidos por cualquier número, de cualquier manera (siempre que sean consecutivos) realmente no importaría, ya que ya no será relevante. El ADN en sí mismo no es TAN relevante, es la forma en que se transcribirá.
Gracias, esta es mi respuesta favorita, ya que llega al corazón de cómo quiero usar los datos. Marqué otra como la respuesta más directa para lo que pregunté. Supongo que tenía algunas preguntas en uno.
No hay problema, me alegro de poder ser de alguna ayuda (incluso vaga).

pero no hay 46 cromosomas para incluir o son algunos de esos duplicados

En primer lugar, si bien cada persona tiene 2 copias de cada cromosoma, esas copias son idénticas en un 99 %. Así que sería un desperdicio repetir todo dos veces.

Segundo, la tecnología es tal que no es fácil generar, digamos, la secuencia completa de un cromosoma que vino de su madre. Obtiene rastros de sanger que muestran las dos secuencias superpuestas entre sí, o lecturas muy cortas que no están mezcladas, pero no puede saber qué padre generó qué fragmento.

Entonces, en general, un genoma de referencia solo tendrá una letra de consenso en cada posición, aunque eso no es biológicamente realista. No importa mucho cuál sea la referencia, siempre que todos sepan que es solo una referencia.

Mi objetivo es mostrar todas las letras a través de un proyector en una pared y quiero poder señalarlas y decirle a alguien que ese es todo el ADN de un ser humano (no un subconjunto).

¿Realmente puedes mostrar 3 mil millones de caracteres así?

Can you really display 3 billion characters like that?No: suponiendo que un carácter mide ~0,03 pulgadas cuadradas (alrededor de 12 puntos), se necesitarían 14,35 acres de pared para mostrar 3 mil millones de caracteres.
Para nosotros los lectores "métricos" que nos preguntamos, 14.35 acres ~= 58072m² que a su vez es un poco más que 5 campos de fútbol "grandes" (copas internacionales).

Si entiendo su pregunta correctamente, desea un solo archivo, es decir, una sola cadena, que representa la secuencia de un genoma humano completo. Sin embargo, no existe tal cosa. El genoma humano se almacena en 46 cadenas diferentes (cromosomas), y estas cadenas no tienen un orden natural .

Los números utilizados para referirse a los genomas se basan en su orden cuando se organizan por tamaño.

Todas las operaciones en el genoma (como copiarlo antes de la mitosis) ocurren en paralelo, con proteínas operando en cada cromosoma individualmente.

Si desea representar un genoma humano completo "honestamente", diría que su mejor opción es colocar 46 cadenas separadas en el proyector, tal vez paralelas entre sí como el código en Matrix.

Si desea mostrar una cadena grande y larga, cualquier secuencia de concatenación es tan (in)correcta como cualquier otra, así que simplemente abra los archivos en orden alfabético y concatene todos.

Si desea fusionar todas las secuencias como una sola secuencia, descargue la secuencia de todos los cromosomas y luego concatene. Comando simple para eso si usas Linux:

grep -v ">" chromosome*.fa > entire_genome.txt

Ahora tiene sentido separar el genoma cromosómicamente porque no hay conexión física entre un cromosoma y el otro. Además, hay muchos órdenes por los cuales puede concatenar los cromosomas, lo que le dará una 23!cantidad de secuencias genómicas.

Ahora debe tener en cuenta que todo esto puede generar errores graves si está tratando de estudiar el contexto genómico de cualquier gen. Así que es mejor que vayas con los cromosomas.

Si lo interpreté mal y lo que quiso decir es tener todas las secuencias de cromosomas fasta en un solo archivo, pero no fusionar las secuencias, entonces es un comando bastante sencillo.

cat chromosome*.fa > genome.fa

Ahora, lo que descargas es una secuencia de referencia. Debe encontrar variantes, etc. para sus datos controlando sus parámetros de alineación.

Y realmente no entiendo por qué quieres proyectarlo en la pared. Hay formas más fáciles y mejores de analizar el genoma.