Significado biológico de la longitud de lectura

Tengo algunos archivos FASTQ en dos conjuntos de datos que son secuencias de la región 16Srna. El primer conjunto de datos son los amplicones de la región V4 y el segundo es la región V3-V4.

Sin embargo, todas las lecturas tienen una longitud de 250 nucleótidos, mientras que una región está estrictamente incluida en la otra. Entonces, ¿cuál es el significado biológico de la longitud?

Espero que las lecturas tengan la misma longitud que la región secuenciada/amplificada. No sé el tamaño de las regiones, pero obviamente una es más larga que la otra.

Gracias (pensé que era mejor preguntar aquí en lugar de bioinformatics.stackexchange.com)

Esto es absolutamente sobre el tema aquí, solo quería hacerle saber que también sería sobre el tema de la bioinformática como se decidió en este meta hilo . Cuál de los dos sitios que elija depende completamente de usted.
¿Podría editar su pregunta y aclarar lo que le parece extraño? ¿Qué longitud de lecturas esperabas? Lo que describes es estándar, pero algo parece confundirte. ¿Qué es eso?
Edité mi pregunta después del comentario de @terdon.

Respuestas (2)

La longitud de lectura no tiene absolutamente nada que ver con lo que está secuenciando. Es una característica de la tecnología de secuenciación que utiliza. Las técnicas de secuenciación NGS suelen producir este tipo de lectura corta que está viendo. La longitud de lectura no cambia porque está secuenciando una molécula más larga. Todavía obtendría lecturas de ~ 250 nt incluso si estuviera secuenciando un genoma completo. Tus lecturas son algo como esto ( fuente de la imagen ):

imagen que muestra lecturas alineadas con un genoma

Entonces, la gran mayoría de sus 250 nt se superponen y cubren partes ligeramente diferentes de su secuencia objetivo. Esta es una de las razones por las que el análisis NGS no es trivial. El primer paso en cualquier análisis NGS es ensamblar sus lecturas en un archivo bam que cubra su región objetivo. Si necesita ayuda para hacerlo, visite http://bioinformatics.stackexchange.com .

Gracias por tu respuesta. Pero hay algo que no entiendo: con esta técnica de "cortar la molécula" que tiene que ser secuenciar, ¿dónde pones tus códigos de barras? (cuando hay múltiples muestras de diferentes fuentes)
@MrSnake al final de la lectura, pero eso realmente debería ser una pregunta separada.

Tengo entendido que si las lecturas provienen directamente de la máquina de secuenciación, todas tendrán la misma longitud. Eso corresponde a la cantidad de ciclos de secuenciación que se configuró para realizar la máquina. Esto no tiene ningún significado biológico.

No sé qué leerá la máquina una vez que lea más que la longitud del fragmento sujeto a secuenciación.

Si los fragmentos son más cortos de lo que lee el secuenciador, habrá que quitar algunos adaptadores de preparación de bibliotecas de las secuencias para recuperar los fragmentos reales. Entonces debería poder ver las longitudes reales de los fragmentos.

Si los fragmentos son más largos de lo que lee el secuenciador, vea la respuesta de @terdon.