constitución de la región de lectura y gen (IGV)

Trabajo con archivos fastq que contienen lecturas NGS para algunas regiones de ADN humano. El genoma de referencia es hg19. Tenía dos archivos fastq (emparejados). Generé archivos BAM de alineación. Usé "bwa" y samtools para encontrar una posible región del gen objetivo (chr7:55,242,376-55,242,574,). Esto corresponde a una región del gen EGFR.

Aquí hay una captura de pantalla de la región del gen.

EGFR

Y aquí hay una captura de pantalla de la región del cebador.cebador

También tengo una lista de cebadores y cebadores inversos:

FORWARD
1. TTGCCAGTTAACGTCTTCCTTCTCTCTCTG
2. CCCTTGTCTCTGTGTTCTTGTCCCCCCCA
3. TGATCTGTCCCTCACAGCAGGGTCTTCTCT
4. CACACTGACGTGCCTCTCCCTCCCTCCA

REVERSE
1. GAGAAAAGGTGGGCCTGAGGTTCAGAGCCA
2. CCCCACCAGACCATGAGAGGCCCTGCGGCC
3. TGACCTAAAGCCACCTCCTTA
4. CCGTATCTCCCTTCCCTGATTA

Y tengo algunos adaptadores.

ADAPTORS 1
AAGACTCGGCAGCATCTCCA

ADAPTORS 2
GCGATCGTCACTGTTCTCCA

Tengo que responder a las siguientes preguntas:

1) ¿Cuál es la constitución de cada lectura (adaptador+cebador+región amplificada)? La cartilla directa es obvia y corresponde a la primera cartilla de la lista

TTGCCAGTTAACGTCTTCCTTCTCTCTCTG

Entonces, ¿por qué tenemos los otros tres cebadores directos? No entiendo. ¿Y qué pasa con la imprimación inversa correcta?

Parece ser la secuencia complementaria de la región final.

GAGAAAAGGTGGGCCTGAGGTTCAGAGCCA

Finalmente, ¿qué adaptador se utiliza?

¿Es [ADAPTOR1 - PRIMER1 - AMPLIFED REGION] la respuesta correcta? ¿Hay otras posibilidades?

2) ¿% de lecturas que mapean el genoma humano? ¿Qué pasa con los no mapeados?

¿Puedes darme algunas pistas sobre cómo responder a esta pregunta?

Solo necesito algunas pistas, quiero hacerlo yo solo.

Muchas gracias por su ayuda.

Respuestas (1)

Usted ha hecho bastantes preguntas aquí. Intentaré responder a un subconjunto de ellas.

Para responder a su pregunta, comencé por ir al navegador de genomas de UCSC y seleccioné BLAT en el menú desplegable de herramientas. Luego, al pasar sus secuencias de cebadores como consultas, podemos ver claramente dónde se asignan al genoma de referencia.

ingrese la descripción de la imagen aquí

Mirando la figura anterior, puedo suponer que sus datos provienen de un experimento de secuenciación dirigida (exoma o panel de genes, etc.); donde tiene cebadores alrededor de cada exón de EGFR en dos cadenas, en el extremo 5 'de la secuencia del exón en cada cadena (piense en la ADN polimerasa que actúa en la PCR para amplificar la cantidad de moléculas de ADN antes de la secuenciación).

En cuanto al adaptador, no estoy seguro de a qué lectura te refieres. ¿Puedes aclarar por favor?

Sobre el porcentaje de lecturas asignadas frente a las no asignadas, puede usar bamtools.

Ejemplo de uso:

/user/me/src/bamtools/bin/bamtools-2.3.0 stats -insert -in my-sequence-file.bam

Salida de ejemplo:

Lecturas totales: 103277668

Lecturas asignadas: 90088436 (87,2293 %)

Línea delantera: 58136735 (56,2917%)

Hebra inversa: 45140933 (43,7083%)

Control de calidad fallido: 6529806 (6,32257 %)

Duplicados: 0 (0%)

Lecturas emparejadas: 103277668 (100 %)

'Pares adecuados': 87439672 (84,6646%)

Ambos pares mapeados: 87910438 (85.1205%)

Leer 1: 51638834

Leer 2: 51638834

Únicos: 2177998 (2,10888%)

Tamaño medio de plaquita (valor absoluto): 6317,39

Tamaño medio de inserción (valor absoluto): 301

Muchas gracias. Todos usan los mismos 2 adaptadores. ¿Es eso posible? Me parece raro.
solo una última pregunta ¿Cómo pasa sus secuencias de cebadores como consultas en BLAT? Y obtener una figura tan bonita
Me alegro de haber podido ayudar. Generé una entrada en formato fasta con tus ocho secuencias. Luego, después de realizar BLAT, seleccionó el enlace del navegador para una de sus secuencias, se alejó en un factor de 10 varias veces para que todas las secuencias de consulta estén dentro del rango. De forma predeterminada, se muestra una pantalla abarrotada en el navegador del genoma. Puede presionar el botón 'ocultar todo' debajo de la figura de la vista del genoma y seguir configurando las opciones BLAT y refGene/refSeq al máximo.