¿Cuáles son los factores limitantes actuales de la precisión de la secuenciación del genoma? Por precisión me refiero a una relación de cercanía entre el genoma secuenciado y el finalmente ensamblado (no estoy seguro de si existe un nombre propio para esta métrica). Espero que esta forma de medir la precisión sea útil, ya que también captura los errores introducidos durante la alineación de lectura (si se usa la tecnología de secuenciación de lectura corta) y el ensamblaje.
Según tengo entendido, hay dos fuentes de errores que limitan la precisión: errores en la determinación de las bases correctas y errores cometidos en el análisis de datos (alineación de lectura, ensamblaje, etc.). ¿Cuál de estas dos fuentes es responsable de la mayoría de los errores en las técnicas de secuenciación de lectura larga y corta? ¿Hay una cantidad significativa de errores derivados del análisis de datos?
Como @David adivinó correctamente, soy un estudiante (ingeniería) y me pregunto si la precisión puede mejorar significativamente con mejores algoritmos.
Tal como lo entiendo actualmente, las técnicas de secuenciación de lectura corta son precisas, pero las regiones repetitivas son difíciles/imposibles de alinear, mientras que las técnicas de secuenciación de lectura larga son más propensas a errores, y la secuenciación precisa y de lectura larga (HiFi) es muy costosa. Por lo tanto, mi perspectiva demasiado simplificada sugiere que las mejoras algorítmicas pueden continuar mejorando la precisión de lectura larga barata a través de enfoques híbridos o mejorar la alineación y el ensamblaje de lecturas cortas. ¿Es eso correcto?
Los recursos que utilicé fueron:
https://www.pacb.com/blog/understanding-accuracy-in-dna-sequencing/ https://spectrum.ieee.org/tech-talk/biomedical/diagnostics/99-9-percent-accurate-genome- secuenciación y el artículo recomendado por @Maximilian Press
Uno que no está en tu lista: el costo.
Aquí hay una revisión reciente como referencia que repasa estos (no la he analizado en detalle, pero parece capturar las compensaciones con precisión).
Nos hemos vuelto extremadamente buenos algorítmicamente en el uso de todos estos diversos tipos de datos y en piratearlos de varias maneras para complementarse entre sí, pero no podemos sortear las restricciones fundamentales de contigüidad (longitud) y precisión.
El ensamblador HiFiAsm, por ejemplo, está al máximo rendimiento por el momento, y combina datos PacBio HiFi con, por ejemplo, datos Hi-C (un truco de Illumina) para generar genomas humanos diploides prácticamente completos, lo que es realmente un logro técnico asombroso. También se usó para ensamblar el genoma de la secoya, que es 10 veces más grande que el genoma humano.
El problema es tomar estas posibilidades técnicas y llevarlas a una escala y un refinamiento tecnológico en el que podamos generar estos datos de altísima calidad a voluntad y para todas las aplicaciones en las que nos gustaría usarlos.
atractivo
David
David