¿Qué aspecto tienen las lecturas finales emparejadas de Illumina HiSeq/MiSeq?

Tengo entendido que las lecturas finales emparejadas de las plataformas Illumina HiSeq/MiSeq se ven así:

R1:
    AAAAAACCCCCC
R2:
    GGGGGGTTTTTT

Donde las lecturas encontradas en R2 son el complemento inverso de las encontradas en R1. Sin embargo, este no parece ser el caso para mis datos de secuenciación. Si ayuda, tengo un par de lectura de una de mis ejecuciones de MiSeq a continuación.

R1:
@M01814:86:000000000-A6MU9:1:1101:15397:1339 1:N:0:2
TACTCGCACCTATCCGGCACAGCAACACCATCTGGGGCTGAATCGCAATAGCATCTCTCACTTCCTCCATATCAGATTGCTCAAGGCAAGCACTACGCTGCAGTGCCCTCCACTCCCAATTCCCTGATGCTGGTCGTAACTTGCCACACCA
+
>>AA?BBBBBFFGGG2EEEGFBGHHHGA2FGHBGHF2EE?GHGHHFFEEHDGHEFGF5FEEFBGHGBCB5FHHH5F553@434FF31G11??233B1/1/?333B?3FB?/B24B2/2B2?44?3?23333B223<>@0CB22@2@F0/?/

R2:
@M01814:86:000000000-A6MU9:1:1101:15397:1339 2:N:0:2
TAAGGGGCCTAGAACAGGCACCATACATTCAATTGGCTGTGGCAAGTAACAACCAGCATCAGGGAATGTGGAGTGGAGGGCACTGCAGCGAATTGCTTGCCTTGAACAATCTTATATGGGGGAAGTAGACGAACCAATGTGGAGTCAGCCC
+
>AA>>>ADDAFFGGGGG4FGGGFHFHFHHHFHHHB3B32EFBGGE25FGHHHHACEGG533BAGFFF355331BG1@1>EF1E23F333/>//134B43?F34B3334B334444?443B?/<C/23333////<0/<11111/?01?G0?

Como referencia, este es el complemento inverso de R2:

GGGCTGACTCCACATTGGTTCGTCTACTTCCCCCATATAAGATTGTTCAAGGCAAGCAATTCGCTGCAGTGCCCTCCACTCCACATTCCCTGATGCTGGTTGTTACTTGCCACAGCCAATTGAATGTATGGTGCCTGTTCTAGGCCCCTTA

Esta es la alineación (con BLAST; alineación mostrada solo para el HSP):

                                                           60 148
                                                           | |
TACTCGCACCTATCCGGCACAGCAACACCATCTGGGGCTGAATCGCAATAGCATCTCTCACTTCCTCCATATCAGATTGCTCAAGGCAAGCACTACGCTGCAGTGCCCTCCACTCCCAATTCCCTGATGCTGGTCGTAACTTGCCACACCA
                                                           |||||| |||||| |||||| |||||||||||| | ||||||||||||||||||||| |||||||||||||||| || ||||||||||
                                  GGGCTGACTCCACATTGGTTCGTCTACTTCCCCCATATAAGATTGTTCAAGGCAAGCAATTCGCTGCAGTGCCCTCCACTCCACATTCCCTGATGCTGGTTGTTACTTGCCACAGCCAATTGAATGTATGGTGCCTGTTCTAGGCCCCTTA
                                                           | |
                                                           126 38
¿Cuál era el tamaño de la biblioteca y cuál es la longitud de lectura?
La química de MiSeq es de 150 ciclos y el tamaño del fragmento es exactamente de 150 pb.
¿ Estás seguro de que el tamaño del fragmento es exactamente de 150 pb? Por lo general, tiene una distribución de tamaño de fragmento.
¿Cuántas lecturas de este tipo hay? ¿eliminaste las secuencias del adaptador?
Estoy seguro del tamaño del fragmento y las secuencias del adaptador se eliminan, pero gracias por arruinar esto, es más una superposición que he podido forzar. Tal vez solo necesito permitir muchos más desajustes de los que se pensaba anteriormente.

Respuestas (2)

Donde las lecturas encontradas en R2 son el complemento inverso de las encontradas en R1.

Esta afirmación parece incorrecta.

Las lecturas de extremos emparejados provienen de los extremos opuestos de un fragmento (puede aprender la razón por la que sucede en el video de Illumina ). Si el tamaño de inserción es de 150 pb, la longitud de lectura suele ser de ~60 pb, ya que la puntuación de calidad después del 60 pb es inaceptablemente baja. En este caso, la longitud de R1 es de ~60 pb y es de 5'3', la longitud de R2 es de ~60 pb y es de 3'5'. Cuando un número de lecturas es suficiente para cubrir la brecha, forman un contig.

Aquí hay una ilustración del sitio web de Illumina :Del sitio web de Illumina

Hay un pequeño bamboleo en la longitud de los fragmentos, por eso las lecturas no se superponen exactamente. ¿Hay alguna razón por la que esté gastando tiempo y dinero para hacer la segunda lectura cuando la primera lectura le brinda casi exactamente la misma información de secuencia?

No hay oscilación en la longitud de estos fragmentos (esto no es solo ADN fragmentado). Y sí, es probable que sean necesarias lecturas finales emparejadas.