¿Alguien puede explicar las diferencias entre secuencia, lecturas y contigs de material genético como el ADN, si es posible con un ejemplo?
Soy nuevo en bioinformática y no he encontrado respuestas concluyentes para todos estos conceptos en la web.
Mi comprensión de esas tres palabras es la siguiente:
secuencia es un nombre genérico que describe el orden de las letras biológicas (ADN/ARN o aminoácidos). Tanto los contigs como las lecturas son secuencias de ADN/ARN o aa
las lecturas son solo una abreviatura para lecturas secuenciadas. Por lo general, las lecturas secuenciadas se refieren a información algo digital obtenida de la máquina de secuenciación (por ejemplo, Illumina MySeq) y almacenada en el fastq
archivo con puntajes de calidad por base. Las lecturas suelen ser cortas. Sin embargo, "corto" cambia rápidamente. En este momento, MySeq produce lecturas entre 50 y 150 pares de bases de longitud (pb). Desde una sola ejecución (realmente dependerá de la ejecución) puede obtener millones de lecturas, donde cada lectura se establecerá en un tamaño de pb, por ejemplo, 100 pb de largo. Todas las lecturas se almacenan en un solo fastq
archivo por réplica, donde todas las lecturas en ese archivo suelen tener un tamaño uniforme, por ejemplo, los 5 millones de lecturas tienen una longitud de 100 pb.
Como bioinformático, su primer trabajo es identificar de dónde provienen esas lecturas . Dependiendo del objetivo experimental y del tipo de secuenciación que esté realizando, por ejemplo, DNA-seq o RNA-seq, es posible que encuentre contigs o no .
los contigs son simplemente lecturas que se han ensamblado juntas. Por ejemplo, si está haciendo transcriptómica de novo . Entonces:
Voy a decir lo mismo que @Serine pero en un contexto ligeramente diferente. Tomemos un ejemplo en el que desea comparar a las personas que fuman con las que no fuman.
En este contexto, querrías tomar una secuencia de ADN de personas fumadoras. Sin embargo, debido a limitaciones tecnológicas, no obtendrá una sola secuencia de ADN de la máquina de secuenciación. Obtendrá millones de secuencias cortas de ADN superpuestas conocidas como lecturas.
Necesitamos un ensamblador para "mapear" las lecturas y compararlas con un genoma de referencia. En este ejemplo, el genoma de referencia podría haber sido el HG38 humano.
El ensamblador necesitaría fusionar las lecturas superpuestas en un conjunto de regiones no superpuestas, conocidas como contigs.
aliced
vvilp
usuario15814