¿Cuál es la diferencia entre secuencia, lecturas y contigs de material genético?

¿Alguien puede explicar las diferencias entre secuencia, lecturas y contigs de material genético como el ADN, si es posible con un ejemplo?

Soy nuevo en bioinformática y no he encontrado respuestas concluyentes para todos estos conceptos en la web.

¡Bienvenidos a Biología! ¿Esta pregunta se refiere a un área de investigación específica como el ADN?
si, eso creo Con respecto al ADN, secuencia de ADN
¿No son los contigs la abreviatura de secuencias de pb contiguas?

Respuestas (2)

Mi comprensión de esas tres palabras es la siguiente:

  • secuencia es un nombre genérico que describe el orden de las letras biológicas (ADN/ARN o aminoácidos). Tanto los contigs como las lecturas son secuencias de ADN/ARN o aa

  • las lecturas son solo una abreviatura para lecturas secuenciadas. Por lo general, las lecturas secuenciadas se refieren a información algo digital obtenida de la máquina de secuenciación (por ejemplo, Illumina MySeq) y almacenada en el fastqarchivo con puntajes de calidad por base. Las lecturas suelen ser cortas. Sin embargo, "corto" cambia rápidamente. En este momento, MySeq produce lecturas entre 50 y 150 pares de bases de longitud (pb). Desde una sola ejecución (realmente dependerá de la ejecución) puede obtener millones de lecturas, donde cada lectura se establecerá en un tamaño de pb, por ejemplo, 100 pb de largo. Todas las lecturas se almacenan en un solo fastqarchivo por réplica, donde todas las lecturas en ese archivo suelen tener un tamaño uniforme, por ejemplo, los 5 millones de lecturas tienen una longitud de 100 pb.

Como bioinformático, su primer trabajo es identificar de dónde provienen esas lecturas . Dependiendo del objetivo experimental y del tipo de secuenciación que esté realizando, por ejemplo, DNA-seq o RNA-seq, es posible que encuentre contigs o no .

  • los contigs son simplemente lecturas que se han ensamblado juntas. Por ejemplo, si está haciendo transcriptómica de novo . Entonces:

    1. purificar su transcripción de un tejido y enviarla para su secuenciación
    2. obtenga sus archivos fastq con lecturas secuenciadas, que son todas lecturas cortas (por ejemplo, 100 pb)
    3. ensamble esas lecturas de 100 pb en un contig más largo que, con suerte, se parecerá a su transcripción individual
@vvilp sin problemas. aparte, aquí hay un pdf genial que encontré en algún lugar de Internet helix.biology.mcmaster.ca/3S03.pdf . podría ayudarte con tu aprendizaje de bioinformática
He echado un vistazo al PDF. ¡Buen tutorial! Gracias
@vvilp Me alegro de que haya ayudado. por cierto, aquí está el enlace biology.stackexchange.com/questions/31546/… donde encontré ese archivo pdf. Puede haber más información útil para su bioinfo

Voy a decir lo mismo que @Serine pero en un contexto ligeramente diferente. Tomemos un ejemplo en el que desea comparar a las personas que fuman con las que no fuman.

En este contexto, querrías tomar una secuencia de ADN de personas fumadoras. Sin embargo, debido a limitaciones tecnológicas, no obtendrá una sola secuencia de ADN de la máquina de secuenciación. Obtendrá millones de secuencias cortas de ADN superpuestas conocidas como lecturas.

Necesitamos un ensamblador para "mapear" las lecturas y compararlas con un genoma de referencia. En este ejemplo, el genoma de referencia podría haber sido el HG38 humano.

El ensamblador necesitaría fusionar las lecturas superpuestas en un conjunto de regiones no superpuestas, conocidas como contigs.

Los alineadores habituales no ensamblan lecturas.
Perdón, quise decir mapeo.
Gracias Estudiante T. Ahora sé la principal diferencia entre lecturas y contigs.