¿Cuáles son las limitaciones de las tecnologías actuales de secuenciación de nucleótidos?

Usando la plataforma Illumina, es barato y (relativamente) fácil secuenciar grandes cantidades de ADN o ARN. Existen otras plataformas (Roche/454, SOLiD, PacBio, Ion Torrent), cada una con sus propias ventajas, pero Illumina parece ser bastante popular para muchas aplicaciones, a pesar de sus limitaciones.

Idealmente, nos gustaría una tecnología de secuenciación que produzca lecturas largas y sin errores con un alto rendimiento. Sin embargo, en este punto parece que tenemos que hacer una elección: rendimiento o duración (y calidad). PacBio parece prometedor, pero lo último que escuché es que aún no han podido cumplir con sus afirmaciones.

¿Cuáles son las limitaciones moleculares y bioquímicas de nuestras tecnologías de secuenciación actuales? ¿Por qué no tenemos ya lecturas largas y sin errores con alto rendimiento?

Sospecho que el triángulo del proyecto está funcionando aquí. en.wikipedia.org/wiki/Project_triangle
@bobthejoe Idealmente, nos gustaría el mayor tiempo posible, ¿verdad? :) Considero que el límite superior de las longitudes de lectura de Sanger (+/- 1000 pb) es largo, pero también sería bueno saber por qué no podemos obtener lecturas más largas (con o sin alto rendimiento, bajas tasas de error, así que sobre).
Todas o la mayoría de las limitaciones que describe pueden superarse simplemente con el método de fuerza bruta. Casi cualquier genoma secuenciado con cualquier tecnología de alto rendimiento actual será de muy alta calidad si se secuencia 100 veces. Es solo una cuestión de tiempo y dinero. Recuerde que el genoma humano original fue secuenciado por muchas máquinas Sanger y mucha clonación.
@yotiao Lo que dices es cierto, pero solo hasta cierto punto. Mi experiencia es que los ensamblajes y otros análisis mejoran con la cobertura, pero en un momento dado, agregar más datos proporciona solo mejoras mínimas, incluso si hay una adición significativa de nuevos datos. Y decir que el proyecto del genoma humano tuvo éxito principalmente porque dedicaron muchos secuenciadores Sanger al proyecto ignora las diferencias significativas entre la naturaleza y la calidad de los datos producidos por la plataforma Sanger en comparación con las plataformas de alto rendimiento actuales.
@Daniel Sí, tienes razón en principio. Pero entonces, si lo que necesita es una secuencia tan perfecta y completa como sea posible, entonces propondría que las limitaciones sean las mismas que antes: el ADN en sí mismo, con su contenido repetitivo súper alto, poliploidía. Sanger y la clonación posicional no lograron resolver este problema (por lo tanto, las brechas en la secuencia del genoma humano terminado) y se consideran el estándar de oro (¿ya soy tan viejo?).

Respuestas (2)

Parece que respondió a su propia pregunta, la señal de unas pocas moléculas que pasan por una enzima o una polimerasa tiende a desincronizarse después de unos cientos de bases. Si una enzima para la secuenciación fuera más rigurosa en el tiempo, eso podría ayudar, por ejemplo. Las máquinas leen rastros en cuatro canales con buenos golpes para cada base. Vea este artículo para un buen ejemplo. Puedes ver que si hay demasiadas bases consecutivas, es difícil saber cuántas bases hay. Con el tiempo, los cuatro rastros comenzarán a borrarse y no puedes distinguir a Adam de Thelma si entiendes lo que quiero decir.

Pero hay otros cuellos de botella.

Actualmente, los secuenciadores emiten un volumen de datos tan alto que el análisis del significado de los datos de salida no se puede analizar lo suficientemente rápido. Esto sigue la tendencia en biotecnología durante los últimos 12 años más o menos: más datos de secuencias, datos de micromatrices, más datos de mutaciones, más genomas que personas que realmente pueden usarlos para comprender la biología. Ahora hay un pequeño cuello de botella en el análisis.

Por lo tanto, algunos de estos secuenciadores tienen mayores longitudes de lectura, lo que puede facilitar el ensamblaje de una secuencia. Estos secuenciadores generalmente cuestan más. Por ejemplo, si tiene una biblioteca para secuenciar un pequeño genoma de hongos o algas, obtendrá la respuesta en un día o menos ahora. En forma de 1 Tb de lecturas, quizás de 50 a 200 pb de largo. Podría tomar bastante tiempo juntar eso en una nueva secuencia genómica, aún más encontrar los genes, construir las redes de genes a partir de una plantilla de vías, etc. Imagínense miles de secuenciadores bombeando día y noche y obtendrán la imagen que estoy tratando de pintar aquí.

Sobre el costo. Ion Torrent y los nuevos secuenciadores Oxford Nanopore son realmente baratos: entre $ 50 mil y quizás $ 900 por el secuenciador USB de Oxford Nanopore. La mayoría de los otros sistemas cuestan cientos de miles de dólares. Ion torrent y Nanopore tienen más elementos desechables: tiras un chip o incluso todo el secuenciador, a un costo de cientos de dólares por muestra.

Durante el verano, asistí a un par de conferencias, incluido un seminario de un día centrado en el ensamblaje de genomas de cobertura 30x a partir de datos de MiSeq y los sesgos en los secuenciadores estaban creando errores sistemáticos que dificultaban la interpretación de algunos de los datos. Los datos HTS no son plug and play, incluso con software de código abierto. todavía no.

P1) ¿Cuáles son las limitaciones moleculares y bioquímicas de nuestras tecnologías de secuenciación actuales?

A1) AFAIK:

Illumina tiene dificultades para producir lecturas largas (aunque ahora miseq puede generar lecturas de 300 pb y que se pueden emparejar, el llamado extremo emparejado 2X300) porque después de una cierta cantidad de bases que se sintetizan y graban en cámara (Illumina está secuenciando por síntesis , básicamente agrega bases y mide la fluorescencia en cada ciclo), es decir, después de un cierto número de "ciclos" puede perder la sincronización y la calidad de las bases disminuye.

PacBio puede generar moléculas muy largas, pero todavía tienen grandes problemas con la confiabilidad de la lectura de las bases (no sé cuál es el problema aquí)

P2) ¿Por qué no tenemos ya lecturas largas y sin errores con alto rendimiento?

A2) ¡Porque es difícil de hacer! ¡Pero nos estamos moviendo hacia esto!