¿Qué limita la precisión de la secuenciación del genoma en la actualidad?

¿Cuáles son los factores limitantes actuales de la precisión de la secuenciación del genoma? Por precisión me refiero a una relación de cercanía entre el genoma secuenciado y el finalmente ensamblado (no estoy seguro de si existe un nombre propio para esta métrica). Espero que esta forma de medir la precisión sea útil, ya que también captura los errores introducidos durante la alineación de lectura (si se usa la tecnología de secuenciación de lectura corta) y el ensamblaje.

Según tengo entendido, hay dos fuentes de errores que limitan la precisión: errores en la determinación de las bases correctas y errores cometidos en el análisis de datos (alineación de lectura, ensamblaje, etc.). ¿Cuál de estas dos fuentes es responsable de la mayoría de los errores en las técnicas de secuenciación de lectura larga y corta? ¿Hay una cantidad significativa de errores derivados del análisis de datos?

Como @David adivinó correctamente, soy un estudiante (ingeniería) y me pregunto si la precisión puede mejorar significativamente con mejores algoritmos.

Tal como lo entiendo actualmente, las técnicas de secuenciación de lectura corta son precisas, pero las regiones repetitivas son difíciles/imposibles de alinear, mientras que las técnicas de secuenciación de lectura larga son más propensas a errores, y la secuenciación precisa y de lectura larga (HiFi) es muy costosa. Por lo tanto, mi perspectiva demasiado simplificada sugiere que las mejoras algorítmicas pueden continuar mejorando la precisión de lectura larga barata a través de enfoques híbridos o mejorar la alineación y el ensamblaje de lecturas cortas. ¿Es eso correcto?

Los recursos que utilicé fueron:

https://www.pacb.com/blog/understanding-accuracy-in-dna-sequencing/ https://spectrum.ieee.org/tech-talk/biomedical/diagnostics/99-9-percent-accurate-genome- secuenciación y el artículo recomendado por @Maximilian Press

Bienvenido a Biología.SE. La comunidad de Biology.SE ha acordado que las preguntas que muestran poco o ningún esfuerzo de investigación previo están fuera de tema en este sitio. Edite su pregunta y díganos dónde ha buscado respuestas, qué sabe sobre el tema y dónde exactamente todavía tiene preguntas. Además, hay más de un método para realizar la secuenciación del genoma y tienen diferentes limitaciones; esto hace que su pregunta, tal como está escrita actualmente, sea demasiado amplia. Las preguntas poco investigadas pueden estar sujetas a votación negativa y cierre.
Veo que no has completado el Tour . Si lo hace, le ayudará a comprender cómo funciona este SE. La ayuda para hacer preguntas es un buen seguimiento. Más específicamente, es útil brindar contexto y apoyo para cualquier suposición en la pregunta san. ¿Qué le hace pensar que la precisión es un problema importante? Y la idea de que tiene que ver con algoritmos sugiere que no has investigado el tema, sino que eres científico de datos o programador buscando un problema. ¿Eres?
Pensándolo bien, me pregunto si te refieres a "precisión" o algo más. La "precisión" de la secuenciación del genoma se relaciona con la identificación correcta de bases en una posición particular: con qué frecuencia una secuencia contendrá una G (digamos) donde realmente hay una A. Sin embargo, eso no es un problema importante en la secuenciación de genomas eucariotas, especialmente aquellos de organismos superiores. Los principales problemas son cerrar las brechas que representan regiones que contienen tramos largos de numerosas copias de genes repetidas y mapear tramos de ADN casi idénticos llamados duplicaciones segmentarias. Esto no es precisión, pero puede ser lo que quisiste decir

Respuestas (1)

Uno que no está en tu lista: el costo.

  • En forma de datos de Oxford Nanopore, tenemos lecturas extremadamente largas de baja precisión. Estos no son demasiado caros, pero por sí solos probablemente no sean viables para muchas aplicaciones.
  • En forma de datos de Illumina, tenemos lecturas cortas extremadamente abundantes, baratas y de alta precisión, adecuadas para enfoques de "conteo". Esto es excelente para algunos enfoques de llamadas variantes y también para algunos tipos de medidas ortogonales. Sin embargo, por sí solos, no son viables para muchas aplicaciones.
  • En forma de datos PacBio (específicamente HiFi), tenemos lecturas largas (más o menos) de alta precisión. Estos son el paquete completo y, en principio, puede usarlos prácticamente solos para cualquier aplicación que pueda imaginar. El tema es que siguen siendo bastante caros.

Aquí hay una revisión reciente como referencia que repasa estos (no la he analizado en detalle, pero parece capturar las compensaciones con precisión).

Nos hemos vuelto extremadamente buenos algorítmicamente en el uso de todos estos diversos tipos de datos y en piratearlos de varias maneras para complementarse entre sí, pero no podemos sortear las restricciones fundamentales de contigüidad (longitud) y precisión.

El ensamblador HiFiAsm, por ejemplo, está al máximo rendimiento por el momento, y combina datos PacBio HiFi con, por ejemplo, datos Hi-C (un truco de Illumina) para generar genomas humanos diploides prácticamente completos, lo que es realmente un logro técnico asombroso. También se usó para ensamblar el genoma de la secoya, que es 10 veces más grande que el genoma humano.

El problema es tomar estas posibilidades técnicas y llevarlas a una escala y un refinamiento tecnológico en el que podamos generar estos datos de altísima calidad a voluntad y para todas las aplicaciones en las que nos gustaría usarlos.

¿Realmente acepta la suposición del cartel de que la precisión es un problema importante? La sobresecuenciación masiva parece solucionarlo.
@David lo hago en ciertos contextos estrechos. Para el ensamblaje del genoma, una aplicación que planteó el OP, la inexactitud (y, en consecuencia, la incompletitud) es un problema importante en el producto final. Se podría argumentar en ambos lados sobre si la precisión en la llamada base de nivel de lectura es particularmente un problema. Es uno que ahora está siendo abordado por la tecnología de la manera que usted y yo mencionamos, pero la "secuenciación excesiva masiva" es prohibitivamente costosa con las tecnologías que realmente abordan los problemas relevantes.
La sobresecuenciación de @David Massive también solo ayuda con las aplicaciones de secuenciación en las que tiene cantidades suficientemente grandes y puras de material de origen. Hay muchas aplicaciones donde este no es el caso.