¿Qué tan fácil es llevar a cabo el ensamblaje de secuencias de novo?

Question

¿Qué tan fácil es llevar a cabo el ensamblaje de secuencias de novo?

adn
Biología
Software
bioinformática
secuencia ADN
ensamblaje secuencial

hola_ahí_andy

Hoy un colega mío hizo la siguiente pregunta:

"Suponiendo que necesito construir desde 0, un cromosoma de un pez, con lecturas cortas pero sin ninguna otra referencia [ensamblaje de novo] :

cuanto trabajo es eso

¿Existe un software genérico (como SAMtools) que alineará las lecturas en un andamio que se pueda usar?

Básicamente, dada una tubería razonablemente clara en términos de software, ¿sigue siendo sangre, sudor y lágrimas o es solo una cuestión de colocarlo en un clúster?

Muy agradecido por cualquier sugerencia, fuentes de información, software, etc.

Konrad Rodolfo

tl; dr: Es sangre, sudor y lágrimas. Todavía no he estado involucrado en esto, pero conozco a personas que lo están. Dependiendo de la complejidad del genoma, obtendrá toneladas (obtuvieron del orden de 1M) contigs que no se superponen.

Tomas Ingalls

¿Sería realmente necesario usar lecturas de 30 pb? eso es muy corto

hola_ahí_andy

saludos chicos, en realidad presioné ~ 30 pb para dar una idea, pero tal vez sea más flexible. ¿Qué longitudes tiene en mente @ThomasIngalls? Hmm, me pregunto a qué se debe la sangre, el sudor y las lágrimas. Supuse que habría algunas tuberías estándar para automatizar todo el proceso.

Tomas Ingalls

La secuenciación de novo sin usar algunas técnicas de lectura larga para la limpieza (como la secuenciación de Sanger) requiere mucha cobertura, y aún termina con una incertidumbre sustancial en los resultados, debido a la gran cantidad de secuencias repetitivas que tienen más de 30 pb en la mayoría. genomas La respuesta de @bitwise da una gran idea de lo que estaba pensando.

Respuestas (3)

¿Qué tan fácil es llevar a cabo el ensamblaje de secuencias de novo?

tl; dr: Es sangre, sudor y lágrimas. Todavía no he estado involucrado en esto, pero conozco a personas que lo están. Dependiendo de la complejidad del genoma, obtendrá toneladas (obtuvieron del orden de 1M) contigs que no se superponen.
¿Sería realmente necesario usar lecturas de 30 pb? eso es muy corto
saludos chicos, en realidad presioné ~ 30 pb para dar una idea, pero tal vez sea más flexible. ¿Qué longitudes tiene en mente @ThomasIngalls? Hmm, me pregunto a qué se debe la sangre, el sudor y las lágrimas. Supuse que habría algunas tuberías estándar para automatizar todo el proceso.
La secuenciación de novo sin usar algunas técnicas de lectura larga para la limpieza (como la secuenciación de Sanger) requiere mucha cobertura, y aún termina con una incertidumbre sustancial en los resultados, debido a la gran cantidad de secuencias repetitivas que tienen más de 30 pb en la mayoría. genomas La respuesta de @bitwise da una gran idea de lo que estaba pensando.

swbarnes2 · Answer 1

Puede intentar buscar en biostars.org, que es como stackexchange, pero para bioinformática.

Velvet es un ejemplo de un ensamblador de novo.

Pero 30 pb es muy poco, y los animales tienen genomas grandes (no tan resistentes como muchas plantas y hongos, pero aún así)

Lo que obtendrías es un bazillion de contigs cortos. No sería bonito.

bit a bit · Answer 2

Si solo quieres usar solo técnicas de secuenciación, tienes un problema.

Para tener una idea de qué tipo de resultados esperar, considere este artículo publicado recientemente en Nature Genetics. Intentaron ensamblar un genoma de ballena de novo. Tenían 7 (!) bibliotecas de extremos emparejados con diferentes longitudes de inserción que van desde 170 pb a 20 kb. Las longitudes de lectura fueron en su mayoría de 100 pb y, en algunos casos, de 49 pb. La cobertura promedio del genoma fue 91x.

Al ensamblar estos datos extensos, terminan con más de 100,000 contigs cuando se realiza el ensamblaje.

Por lo tanto, realmente no se puede ensamblar un genoma complejo (es decir, grande) de alta calidad a partir de datos de secuenciación de lectura corta utilizando las técnicas estándar.

Dicho esto, los enfoques recientes, como las bibliotecas con longitudes de lectura mucho más largas ( aquí ) o el uso de datos Hi-C ( aquí y aquí ) ofrecen una forma de obtener ensamblajes de genomas complejos de alta calidad utilizando solo datos de secuenciación.

"Si solo quieres usar técnicas de secuenciación, tienes un problema". -- ¿Quiere decir técnicas de resecuenciación o técnicas de secuenciación de alto rendimiento?
@ThomasIngalls Me refiero a ensamblar un genoma complejo de novo utilizando secuenciación de alto rendimiento. El ensamblaje de resecuenciación no es un ensamblaje de novo.

jwillis0720 · Answer 3

Me gusta mucho el paquete de software genious. Puede multiproceso y realmente usar el rendimiento de su computadora. Incluso las cosas complicadas como el montaje De Novo son muy, muy intuitivas.

¿Qué tan fácil es llevar a cabo el ensamblaje de secuencias de novo?

hola_ahí_andy

Konrad Rodolfo

Tomas Ingalls

hola_ahí_andy

Tomas Ingalls

Respuestas (3)

swbarnes2

hola_ahí_andy

bit a bit

Tomas Ingalls

bit a bit

jwillis0720

¿Para qué se usan exactamente las computadoras en la secuenciación del ADN?

¿Herramienta para la alineación de nucleótidos con todos los códigos de nucleótidos (por ejemplo, R, Y, W, S, etc.)?

¿Por qué es un problema importante ensamblar illumina finales emparejados sin ningún parámetro de entrada?

¿Virus informático que infecta el ADN?

Alineación de fragmentos secuenciados en secuenciación de próxima generación (ensamblaje de secuencia) [cerrado]

¿Cuál es el tipo de datos de la muestra de ADN?

Secuencia de referencia para definir polimorfismos de un solo nucleótido

¿Por qué necesitamos una secuenciación profunda?

dónde encontrar la distribución de frecuencia relativa de codones sinónimos

¿Cuál es la diferencia entre secuencia, lecturas y contigs de material genético?