¿Qué es "contigs" en ReorderSAM de Picard?

Question

¿Qué es "contigs" en ReorderSAM de Picard?

Biología
bioinformática

pequeñoajedrez

He usado BWA para mapear mis lecturas NGS contra el genoma hg38 y tengo un archivo BAM. No estoy ensamblando el genoma, y mi archivo de genoma de referencia tiene los cromosomas humanos. Por lo tanto, no debería tener "contigs". Pero...

https://broadinstitute.github.io/picard/command-line-overview.html#ReorderSam

y cita:

ReorderSam reordena las lecturas en un archivo SAM/BAM para que coincida con el orden de contig en un archivo de referencia proporcionado, según lo determinado por la coincidencia exacta de nombres de contigs

P: ¿ Qué contig orderingsignifica, para mi experimento de secuenciación del genoma completo? En particular, ¿qué significa hacer coincidir el contig con un archivo de referencia?

Respuestas (1)

¿Qué es "contigs" en ReorderSAM de Picard?

reyboomie · Answer 1

No estoy familiarizado con picard y su función reorderSam, pero por lo que sé/entiendo de su documentación, se refieren a esto:
el orden de los contigs mientras se usa una secuencia de referencia. Como esto:

Figura 5: Anatomía del ensamblaje del genoma completo. En el ensamblaje del genoma completo, los fragmentos BAC (segmentos de línea roja) y las lecturas de cinco individuos (segmentos de línea negra) se combinan para producir una secuencia contig y consenso (línea verde). Los contigs están conectados en andamios, que se muestran en rojo, emparejando secuencias finales, que también se denominan parejas. Si hay un espacio entre contigs consecutivos, tiene un tamaño conocido. A continuación, los andamios se asignan al genoma (línea gris) utilizando información del sitio etiquetado con secuencia (STS), representada por estrellas azules. © 2001 Asociación Americana para el Avance de la Ciencia Venter, C. et al. La secuencia del genoma humano. Ciencia 291, 1304–1351 (2001). Reservados todos los derechos. ( fuente )

ReorderSAM (Picard) Entonces, en Picard tiene su INPUT (File)archivo REFERENCE (File). Esto también se puede ver en su código:

// write the reads in contig order
109
            for (final SAMSequenceRecord contig : refDict.getSequences() ) {
110
                final SAMRecordIterator it = in.query(contig.getSequenceName(), 0, 0, false);
111
                writeReads(out, it, newOrder, contig.getSequenceName());
112
            }

( código fuente )

ReorderSam reordena las lecturas en un archivo SAM/BAM para que coincida con el ordenamiento continuo en un archivo de referencia proporcionado

Algunos antecedentes más
Hay dos enfoques principales: dos obtienen una secuencia del genoma:

hay dos enfoques "principales" para esto:
g. Las tecnologías de secuenciación de segunda generación producen millones de cadenas cortas (unos pocos cientos de pb) de nucleótidos (lecturas), lo que es ideal para volver a secuenciar cuando las lecturas se asignan a un genoma de referencia (ensamblaje basado en referencia ) . El ensamblaje del genoma de novo basado en la secuenciación de segunda generación es un desafío debido a las dificultades con los tramos de ADN de homonucleótidos y ricos en GC o AT, que están subrepresentados en el resultado de la secuenciación ( fuente )

Las características de estos son:
de novo

sin sesgo hacia un genoma de referencia

no hay plantilla para adaptarse a

la asamblea normalmente está más fragmentada

normalmente funciona mejor para diferencias de escala mediana/a gran escala ( fuente )

mapeo de referencia

menos contigios

en la mayoría de los métodos, las lecturas que no se asignan no se utilizan en la secuencia final (este también es el caso con reorderSAM:Reads mapped to contigs absent in the new reference are dropped

miras lo que es similar a tu genoma de referencia

Los SNP y las versiones muy pequeñas se posicionan y comparan más fácilmente entre grupos ( fuente )

Recomiendo encarecidamente ver esta breve animación para diferenciar entre estos dos y comprender qué es el mapeo del genoma de referencia.

¿Qué es "contigs" en ReorderSAM de Picard?

pequeñoajedrez

Respuestas (1)

reyboomie

¿Qué información se puede extraer del transcurso del tiempo de los datos de RNA-Seq?

Validación biológica de la interacción gen-gen determinada computacionalmente

Tratando de comprender el panorama general detrás de la secuenciación, alineación y búsqueda de ADN

Buscando una base de datos de objetivos de fármacos contra el cáncer para guiar la secuenciación del ADN del tumor del paciente

Proyecto simple de biología computacional para la clase de Biología AP. ¿Ideas? [cerrado]

Validación de marcadores usando transcriptoma y secuencias genómicas derivadas de una sola célula

secuencias quiméricas [cerrado]

Algoritmo de agrupamiento de secuencias recomendado para datos de transcriptomas

¿Debo rechazar el trabajo no relacionado asignado por el asesor de doctorado?

Cómo realizar una alineación estructural de ADN en pymol