¿Qué es "contigs" en ReorderSAM de Picard?

He usado BWA para mapear mis lecturas NGS contra el genoma hg38 y tengo un archivo BAM. No estoy ensamblando el genoma, y ​​mi archivo de genoma de referencia tiene los cromosomas humanos. Por lo tanto, no debería tener "contigs". Pero...

https://broadinstitute.github.io/picard/command-line-overview.html#ReorderSam

y cita:

ReorderSam reordena las lecturas en un archivo SAM/BAM para que coincida con el orden de contig en un archivo de referencia proporcionado, según lo determinado por la coincidencia exacta de nombres de contigs

P: ¿ Qué contig orderingsignifica, para mi experimento de secuenciación del genoma completo? En particular, ¿qué significa hacer coincidir el contig con un archivo de referencia?

Respuestas (1)

No estoy familiarizado con picard y su función reorderSam, pero por lo que sé/entiendo de su documentación, se refieren a esto:
el orden de los contigs mientras se usa una secuencia de referencia. Como esto:

ingrese la descripción de la imagen aquíFigura 5: Anatomía del ensamblaje del genoma completo. En el ensamblaje del genoma completo, los fragmentos BAC (segmentos de línea roja) y las lecturas de cinco individuos (segmentos de línea negra) se combinan para producir una secuencia contig y consenso (línea verde). Los contigs están conectados en andamios, que se muestran en rojo, emparejando secuencias finales, que también se denominan parejas. Si hay un espacio entre contigs consecutivos, tiene un tamaño conocido. A continuación, los andamios se asignan al genoma (línea gris) utilizando información del sitio etiquetado con secuencia (STS), representada por estrellas azules. © 2001 Asociación Americana para el Avance de la Ciencia Venter, C. et al. La secuencia del genoma humano. Ciencia 291, 1304–1351 (2001). Reservados todos los derechos. ( fuente )

ReorderSAM (Picard) Entonces, en Picard tiene su INPUT (File)archivo REFERENCE (File). Esto también se puede ver en su código:

// write the reads in contig order
109
            for (final SAMSequenceRecord contig : refDict.getSequences() ) {
110
                final SAMRecordIterator it = in.query(contig.getSequenceName(), 0, 0, false);
111
                writeReads(out, it, newOrder, contig.getSequenceName());
112
            } 

( código fuente )

ReorderSam reordena las lecturas en un archivo SAM/BAM para que coincida con el ordenamiento continuo en un archivo de referencia proporcionado

Algunos antecedentes más
Hay dos enfoques principales: dos obtienen una secuencia del genoma:

hay dos enfoques "principales" para esto:
g. Las tecnologías de secuenciación de segunda generación producen millones de cadenas cortas (unos pocos cientos de pb) de nucleótidos (lecturas), lo que es ideal para volver a secuenciar cuando las lecturas se asignan a un genoma de referencia (ensamblaje basado en referencia ) . El ensamblaje del genoma de novo basado en la secuenciación de segunda generación es un desafío debido a las dificultades con los tramos de ADN de homonucleótidos y ricos en GC o AT, que están subrepresentados en el resultado de la secuenciación ( fuente )

Las características de estos son:
de novo

  • sin sesgo hacia un genoma de referencia
  • no hay plantilla para adaptarse a
  • la asamblea normalmente está más fragmentada
  • normalmente funciona mejor para diferencias de escala mediana/a gran escala ( fuente )


mapeo de referencia

  • menos contigios
  • en la mayoría de los métodos, las lecturas que no se asignan no se utilizan en la secuencia final (este también es el caso con reorderSAM:Reads mapped to contigs absent in the new reference are dropped
  • miras lo que es similar a tu genoma de referencia
  • Los SNP y las versiones muy pequeñas se posicionan y comparan más fácilmente entre grupos ( fuente )

Recomiendo encarecidamente ver esta breve animación para diferenciar entre estos dos y comprender qué es el mapeo del genoma de referencia.