Tengo algunos archivos FASTQ en dos conjuntos de datos que son secuencias de la región 16Srna. El primer conjunto de datos son los amplicones de la región V4 y el segundo es la región V3-V4.
Sin embargo, todas las lecturas tienen una longitud de 250 nucleótidos, mientras que una región está estrictamente incluida en la otra. Entonces, ¿cuál es el significado biológico de la longitud?
Espero que las lecturas tengan la misma longitud que la región secuenciada/amplificada. No sé el tamaño de las regiones, pero obviamente una es más larga que la otra.
Gracias (pensé que era mejor preguntar aquí en lugar de bioinformatics.stackexchange.com)
La longitud de lectura no tiene absolutamente nada que ver con lo que está secuenciando. Es una característica de la tecnología de secuenciación que utiliza. Las técnicas de secuenciación NGS suelen producir este tipo de lectura corta que está viendo. La longitud de lectura no cambia porque está secuenciando una molécula más larga. Todavía obtendría lecturas de ~ 250 nt incluso si estuviera secuenciando un genoma completo. Tus lecturas son algo como esto ( fuente de la imagen ):
Entonces, la gran mayoría de sus 250 nt se superponen y cubren partes ligeramente diferentes de su secuencia objetivo. Esta es una de las razones por las que el análisis NGS no es trivial. El primer paso en cualquier análisis NGS es ensamblar sus lecturas en un archivo bam que cubra su región objetivo. Si necesita ayuda para hacerlo, visite http://bioinformatics.stackexchange.com .
Tengo entendido que si las lecturas provienen directamente de la máquina de secuenciación, todas tendrán la misma longitud. Eso corresponde a la cantidad de ciclos de secuenciación que se configuró para realizar la máquina. Esto no tiene ningún significado biológico.
No sé qué leerá la máquina una vez que lea más que la longitud del fragmento sujeto a secuenciación.
Si los fragmentos son más cortos de lo que lee el secuenciador, habrá que quitar algunos adaptadores de preparación de bibliotecas de las secuencias para recuperar los fragmentos reales. Entonces debería poder ver las longitudes reales de los fragmentos.
Si los fragmentos son más largos de lo que lee el secuenciador, vea la respuesta de @terdon.
terdón
terdón
abichat