¿Para qué se usan exactamente las computadoras en la secuenciación del ADN?

He leído detenidamente el artículo de Wikipedia sobre la secuenciación del ADN y no puedo entender nada.

Hay una química intensa involucrada en el proceso que de alguna manera divide el ADN y luego aísla sus partes.

Sin embargo, la secuenciación del ADN se considera un proceso muy intensivo desde el punto de vista computacional . No entiendo qué se está calculando exactamente allí: qué datos ingresan a las computadoras y qué computadoras calculan específicamente.

¿Qué se está calculando exactamente allí? ¿Dónde puedo obtener más información sobre esto?

Este artículo repasa los procesos computacionales involucrados en la alineación de fragmentos.
@jonsca: Parece que ya tenemos "cadenas" que representan el ADN, pero ¿cómo obtenemos esas cadenas?
No es la secuenciación en sí misma lo que es computacionalmente particularmente intensivo, sino el ensamblaje de los fragmentos secuenciados en ADN continuo. Además, incluso una tarea computacionalmente trivial llevará tiempo si se repite miles de millones de veces. Para obtener una secuencia de calidad decente, uno tiene que secuenciar el ADN varias veces (más de 20). Si tienes un genoma de 3 mil millones de bases de largo...
Esta es una muy buena pregunta. ¿Es más fácil el cálculo si tiene 300 000 000 lecturas de 100 pb de longitud o 60 000 000 lecturas de 500 pb de longitud?
@leonardo Eso es fácil, en el segundo caso no solo tienes menos lecturas (bueno), también tienes lecturas más largas (también bueno). Aunque aumentar la longitud de lectura aumenta el tiempo de cálculo, también aumenta la calidad del resultado. En el "peor" caso, podría considerar esas lecturas como contigs ya creados de varias lecturas superpuestas más pequeñas.
@KonradRudolph: en ese caso, ¿cuantas menos lecturas, pero más largas, harán que el tiempo de cálculo sea más rápido?
@leonardo Sí. El caso extremo, una lectura que abarca todo el genoma. ¿Ves el patrón? ;-)

Respuestas (4)

Las computadoras se utilizan en varios pasos de secuenciación, desde los datos sin procesar hasta la secuencia final:

Procesamiento de imágenes

Los secuenciadores modernos suelen utilizar el marcado fluorescente de fragmentos de ADN en solución. La fluorescencia codifica los diferentes tipos de bases nitrogenadas (= “base”) (generalmente denominadas A, C, G y T). Para lograr un alto rendimiento, se realizan millones de reacciones de secuenciación en paralelo en cantidades microscópicas en un chip de vidrio, y para cada microrreacción, la etiqueta debe registrarse en cada paso de la reacción.

Es decir: el secuenciador toma fotografías digitales progresivas del chip que contiene el reactivo de secuenciación. Estas fotos tienen píxeles de diferentes colores que deben diferenciarse y asignarles un valor de color específico.

Imagen digital de un chip de secuenciación

Como se puede ver, este fragmento de imagen (muy ampliado; ¡la imagen tiene menos de 100 µm de ancho!) es borroso y muchos de los puntos se superponen. Esto hace que sea difícil determinar qué color asignar a qué píxel (aunque las versiones más recientes de la máquina secuenciadora tienen sistemas de enfoque mejorados y, en consecuencia, la imagen es más nítida).

llamada base

Se registra una imagen de este tipo para cada paso del proceso de secuenciación, lo que produce una imagen para cada base de los fragmentos. Para un fragmento de 75 de longitud, serían 75 imágenes.

Una vez que haya analizado las imágenes, obtendrá espectros de color para cada píxel en las imágenes. Los espectros de cada píxel corresponden a un fragmento de secuencia (a menudo llamado "lectura") y se consideran por separado. Entonces, para cada fragmento obtienes un espectro de este tipo:

Espectro de trazas de secuencia

(Esta imagen se genera mediante un proceso de secuenciación alternativo llamado secuenciación de Sanger, pero el principio es el mismo).

Ahora debe decidir qué base asignar para cada posición en función de la señal ("llamada de base"). Para la mayoría de las posiciones, esto es bastante fácil, pero a veces la señal se superpone o decae significativamente. Esto debe tenerse en cuenta al decidir la calidad de la llamada base (es decir, qué confianza le asigna a su decisión para una base determinada).

Hacer esto para cada lectura produce miles de millones de lecturas, cada una de las cuales representa un fragmento corto del ADN original que secuenció.

La mayoría de los análisis bioinformáticos comienzan aquí; es decir, las máquinas emiten archivos que contienen los fragmentos de secuencia corta . Ahora necesitamos hacer una secuencia a partir de ellos.

Leer mapeo y ensamblaje

El punto clave que permite recuperar la secuencia original de estos pequeños fragmentos es el hecho de que estos fragmentos están (no uniformemente) distribuidos al azar en el genoma y se superponen .

El siguiente paso depende de si tiene a mano un genoma similar ya secuenciado. A menudo, este es el caso. Por ejemplo, hay una "secuencia de referencia" de alta calidad del genoma humano y dado que todas las secuencias genómicas de todos los humanos son aproximadamente idénticas en un 99,9 % (dependiendo de cómo las cuentes), simplemente puedes mirar dónde se alinean tus lecturas con la referencia. .

Leer mapeo

Esto se hace para buscar cambios únicos entre la referencia y su genoma actualmente estudiado, por ejemplo, para detectar mutaciones que conducen a enfermedades.

Entonces, todo lo que tiene que hacer es mapear las lecturas a su ubicación original en el genoma de referencia (en azul) y buscar diferencias (como diferencias de pares de bases, inserciones, eliminaciones, inversiones...).

Lecturas asignadas

Dos puntos hacen que esto sea difícil:

  1. Tiene miles de millones (!) de lecturas, y el genoma de referencia suele tener varios gigabytes de tamaño. Incluso con la implementación más rápida imaginable de la búsqueda de cadenas, esto llevaría un tiempo prohibitivo.

  2. Las cuerdas no coinciden con precisión. En primer lugar, por supuesto que hay diferencias entre los genomas; de lo contrario, no secuenciarías los datos en absoluto, ¡ya los tendrías! La mayoría de estas diferencias son diferencias de un solo par de bases, SNP (= polimorfismos de un solo nucleótido), pero también hay variaciones más grandes que son mucho más difíciles de manejar (y a menudo se ignoran en este paso).

    Además, las máquinas secuenciadoras no son perfectas. Muchas cosas influyen en la calidad, en primer lugar, la calidad de la preparación de la muestra y las diferencias mínimas en la química. Todo esto conduce a errores en las lecturas.

En resumen, debe encontrar la posición de miles de millones de cadenas pequeñas en una cadena más grande que tiene varios gigabytes de tamaño. Todos estos datos ni siquiera caben en la memoria de una computadora normal. Y debe tener en cuenta las discrepancias entre las lecturas y el genoma.

Desafortunadamente, esto todavía no produce el genoma completo. La razón principal es que algunas regiones del genoma son muy repetitivas y están mal conservadas, por lo que es imposible asignar lecturas únicamente a dichas regiones.

Como consecuencia, terminará con bloques distintos y contiguos ("contigs") de lecturas mapeadas. Cada contig es un fragmento de secuencia, como lecturas, pero mucho más grande (y con suerte con menos errores).

Asamblea

A veces, desea secuenciar un nuevo organismo para no tener una secuencia de referencia para mapear. En su lugar, debe realizar un ensamblaje de novo . También se puede usar un ensamblaje para unir contigs de lecturas asignadas (pero se usan diferentes algoritmos).

Nuevamente usamos la propiedad de las lecturas que se superponen. Si encuentra dos fragmentos que se ven así:

ACGTCGATCGCTAGCCGCATCAGCAAACAACACGCTACAGCCT
ATCCCCAAACAACACGCTACAGCCTGGCGGGGCATAGCACTGG

Puede estar bastante seguro de que se superponen así en el genoma:

ACGTCGATCGCTAGCCGCATCAGCAAACAACACGCTACAGCCT
                  ATCCCCATTCAACACGCTA-AGCTTGGCGGGGCATACGCACTG

(Observe nuevamente que esta no es una combinación perfecta).

Entonces, ahora, en lugar de buscar todas las lecturas en una secuencia de referencia, busca correspondencias de principio a fin entre lecturas en su colección de miles de millones de lecturas.

Si compara el mapeo de una lectura con buscar una aguja en un pajar (una analogía que se usa a menudo), entonces ensamblar lecturas es similar a comparar todas las pajitas en el pajar entre sí y ponerlas en orden de similitud.

Piénsalo así. Supongamos que posee cien copias de "El Señor de los Anillos", una novela de 500000 palabras. Desafortunadamente, tienes esas cien copias en forma de varios millones de pequeños trozos de papel, cada uno de los cuales contiene unas diez palabras secuenciales de la novela. Tu tarea es tomar esos varios millones de trozos de papel y ponerlos en orden para que puedas leer la novela de principio a fin. Supongamos, por ejemplo, que encuentra el fragmento

stab that vile creature, when he had a chance!" "Pity? 

Luego, podría buscar en los otros varios millones de fragmentos un fragmento que se superponga a este de alguna manera. Tal vez encuentres

chance!" "Pity? It was Pity that stayed his hand. Pity, and Mercy: 

Las probabilidades son extremadamente buenas de que esos fragmentos vayan juntos en

stab that vile creature, when he had a chance!" 
"Pity? It was Pity that stayed his hand. Pity, and Mercy: 

¡Pero tal vez no! Tal vez (1) hay otro fragmento de la novela que tiene chance!" "Pity?la superposición correcta, o oh, por cierto, mencioné (2) algunos de esos trozos de papel contienen errores, y también hay que detectarlos y eliminarlos. .

Ese es un trabajo extremadamente intensivo computacionalmente. Los ensambladores de ADN tienen el mismo problema: millones y millones de pequeños fragmentos de ADN que se superponen, que pueden contener errores y que deben ordenarse analizando sus superposiciones y construyendo gradualmente fragmentos cortos en fragmentos cada vez más largos.

Buena analogía, pero diría que los ensambladores de ADN tienen el mismo problema , no los secuenciadores.
@DanielStandage: Gracias. Soy experto en informática, no en biología. :-)
@DanielStandage: ¿Sería correcto cambiar la palabra "secuenciación" por "ensamblaje" en mi pregunta y en los gráficos de la página de genoma.gov a la que me vinculo?
@sharptooth No estoy seguro de que desee reemplazar la palabra "secuenciación" con la palabra "ensamblaje" en la pregunta. La respuesta a su pregunta es que la secuenciación y el ensamblaje están estrechamente relacionados, y el ensamblaje es la parte que requiere un poder computacional significativo.

En un genoma, normalmente hay miles de millones de pares de bases. Sin embargo, es imposible leerlos todos de una sola vez. El ADN se fragmenta y se determina la secuencia de los fragmentos. Las técnicas de secuenciación de próxima generación son más rápidas y económicas, pero solo producen fragmentos cortos (digamos, 100 pares de bases, esto depende de la tecnología). Es extremadamente intensivo desde el punto de vista computacional volver a unir estos fragmentos.

Más información: Cartilla de ensamblaje de secuencias del genoma ; Introducción en Nature Methods

Como mencionó en la pregunta, las plataformas de secuenciación actuales dividen el ADN genómico en muchas piezas pequeñas que luego analiza la máquina. El producto de un experimento de secuenciación son millones o incluso miles de millones de "lecturas" cortas: cadenas de A, C, G y T que representan los nucleótidos de un solo fragmento de ADN.

Las lecturas de ADN en este formulario no son particularmente útiles. La idea en primer lugar era determinar la secuencia de toda la molécula de ADN. Aquí es donde entra en juego el software de ensamblaje del genoma: para determinar la secuencia original del ADN genómico al encontrar la disposición óptima de lecturas superpuestas para reconstruir la secuencia de ADN original.

Las computadoras son cruciales en 2 etapas de este proceso: primero, en el experimento de secuenciación en sí, la plataforma debe registrar e interpretar señales fluorescentes para generar las lecturas de secuencia en primer lugar; y segundo, se necesitan computadoras muy potentes para ensamblar las lecturas en una secuencia contigua para recuperar la secuencia de ADN original.