¿Qué tan fácil es llevar a cabo el ensamblaje de secuencias de novo?

Hoy un colega mío hizo la siguiente pregunta:

"Suponiendo que necesito construir desde 0, un cromosoma de un pez, con lecturas cortas pero sin ninguna otra referencia [ensamblaje de novo] :

  • cuanto trabajo es eso
  • ¿Existe un software genérico (como SAMtools) que alineará las lecturas en un andamio que se pueda usar?
  • Básicamente, dada una tubería razonablemente clara en términos de software, ¿sigue siendo sangre, sudor y lágrimas o es solo una cuestión de colocarlo en un clúster?

Muy agradecido por cualquier sugerencia, fuentes de información, software, etc.

tl; dr: Es sangre, sudor y lágrimas. Todavía no he estado involucrado en esto, pero conozco a personas que lo están. Dependiendo de la complejidad del genoma, obtendrá toneladas (obtuvieron del orden de 1M) contigs que no se superponen.
¿Sería realmente necesario usar lecturas de 30 pb? eso es muy corto
saludos chicos, en realidad presioné ~ 30 pb para dar una idea, pero tal vez sea más flexible. ¿Qué longitudes tiene en mente @ThomasIngalls? Hmm, me pregunto a qué se debe la sangre, el sudor y las lágrimas. Supuse que habría algunas tuberías estándar para automatizar todo el proceso.
La secuenciación de novo sin usar algunas técnicas de lectura larga para la limpieza (como la secuenciación de Sanger) requiere mucha cobertura, y aún termina con una incertidumbre sustancial en los resultados, debido a la gran cantidad de secuencias repetitivas que tienen más de 30 pb en la mayoría. genomas La respuesta de @bitwise da una gran idea de lo que estaba pensando.

Respuestas (3)

Puede intentar buscar en biostars.org, que es como stackexchange, pero para bioinformática.

Velvet es un ejemplo de un ensamblador de novo.

Pero 30 pb es muy poco, y los animales tienen genomas grandes (no tan resistentes como muchas plantas y hongos, pero aún así)

Lo que obtendrías es un bazillion de contigs cortos. No sería bonito.

aplausos por la recomendación de Velvet

Si solo quieres usar solo técnicas de secuenciación, tienes un problema.

Para tener una idea de qué tipo de resultados esperar, considere este artículo publicado recientemente en Nature Genetics. Intentaron ensamblar un genoma de ballena de novo. Tenían 7 (!) bibliotecas de extremos emparejados con diferentes longitudes de inserción que van desde 170 pb a 20 kb. Las longitudes de lectura fueron en su mayoría de 100 pb y, en algunos casos, de 49 pb. La cobertura promedio del genoma fue 91x.

Al ensamblar estos datos extensos, terminan con más de 100,000 contigs cuando se realiza el ensamblaje.

Por lo tanto, realmente no se puede ensamblar un genoma complejo (es decir, grande) de alta calidad a partir de datos de secuenciación de lectura corta utilizando las técnicas estándar.

Dicho esto, los enfoques recientes, como las bibliotecas con longitudes de lectura mucho más largas ( aquí ) o el uso de datos Hi-C ( aquí y aquí ) ofrecen una forma de obtener ensamblajes de genomas complejos de alta calidad utilizando solo datos de secuenciación.

"Si solo quieres usar técnicas de secuenciación, tienes un problema". -- ¿Quiere decir técnicas de resecuenciación o técnicas de secuenciación de alto rendimiento?
@ThomasIngalls Me refiero a ensamblar un genoma complejo de novo utilizando secuenciación de alto rendimiento. El ensamblaje de resecuenciación no es un ensamblaje de novo.

Me gusta mucho el paquete de software genious. Puede multiproceso y realmente usar el rendimiento de su computadora. Incluso las cosas complicadas como el montaje De Novo son muy, muy intuitivas.