¿Cuál es la especificidad de hebra de un genoma de referencia?

Es una pregunta simple, pero me he encontrado con muchas personas que tienen esta pregunta: ¿el genoma de referencia es positivo o negativo? De hecho, he tenido discusiones acaloradas sobre el mismo tema.

Así que aquí está para poner todas esas preguntas a descansar.

¿El genoma de referencia es una cadena positiva o negativa? Y por qué así.

Koustav. Gracias por tu esfuerzo; es bastante encomiable. Las preguntas y respuestas de la OMI como esta, que están destinadas a servir como referencia, se pueden convertir en un wiki de la comunidad . Hace que las publicaciones sean fácilmente editables sin muchos requisitos de representación; La otra cara de la moneda es que no obtienes puntos de reputación. Es solo una sugerencia y depende de usted si desea hacerlo o no.
¡Hecho! ¡No había notado esa opción antes!
@WYSIWYG: ¿por qué esta pregunta es una wiki de la comunidad? Es impreciso y se basa en una suposición falsa, como deja claro mi respuesta.
@David La publicación sonaba como una pregunta popular para la cual se puede proporcionar una respuesta autorizada y, por lo tanto, propuse CW. Por cierto, la suposición no es del todo incorrecta.

Respuestas (3)

En primer lugar, la especificidad de la hebra del genoma de referencia se denomina sentido (hebra positiva) o antisentido (hebra negativa). Ahora consideremos la secuenciación de datos o archivos FASTQ. Cuando alineamos las lecturas, un archivo SAM o BAM resultante tiene una columna que especifica la información del hilo, generalmente vemos un hilo + o -.

Para obtener más información sobre los nombres de las hebras, aquí hay una nota algo incorrecta del artículo de wiki en sentido (biología molecular)

Los nombres de las hebras en realidad dependen de la dirección en la que está escribiendo la secuencia que contiene la información de las proteínas (la información de "sentido"), no de qué hebra está en la parte superior o inferior (eso es arbitrario). La única información biológica real que es importante para marcar cadenas es la ubicación del grupo fosfato 5' y el grupo hidroxilo 3' porque estos extremos determinan la dirección de la transcripción y la traducción. Una secuencia 5' CGCTAT 3' es equivalente a una secuencia escrita 3' TATCGC 5' siempre que se anoten los extremos 5' y 3'. Si los extremos no están etiquetados, la convención es suponer que la secuencia está escrita en la dirección de 5' a 3'. La hebra de Watson se refiere a la hebra superior de 5' a 3' (5' → 3'), mientras que la hebra de Crick se refiere a la hebra inferior de 5' a 3' (3' ← 5' ).[4] Tanto las cadenas de Watson como las de Crick pueden ser cadenas con sentido o antisentido según el gen cuyas secuencias se muestren en la base de datos de secuencias del genoma. Por ejemplo, YEL021W, un alias del gen URA3 utilizado en la base de datos del NCBI, define que este gen está ubicado en el marco de lectura abierto (ORF) 21 del centrómero del brazo izquierdo (L) del cromosoma número V (E) de la levadura (Y). ), y que la cadena de codificación de la expresión es la cadena de Watson (W). YKL074C define el ORF 74 a la izquierda del centrómero del cromosoma XI y denota la hebra codificante de la hebra Crick (C). También se usa ampliamente otro término confuso que se refiere a la hebra "más" y "menos". Cualquiera que sea la hebra con sentido (positivo) o antisentido (negativo), la secuencia de consulta predeterminada en la alineación NCBI BLAST es la hebra "Plus". [4] Tanto las cadenas de Watson como las de Crick pueden ser cadenas con sentido o antisentido según el gen cuyas secuencias se muestren en la base de datos de secuencias del genoma. Por ejemplo, YEL021W, un alias del gen URA3 utilizado en la base de datos del NCBI, define que este gen está ubicado en el marco de lectura abierto (ORF) 21 del centrómero del brazo izquierdo (L) del cromosoma número V (E) de la levadura (Y). ), y que la cadena de codificación de la expresión es la cadena de Watson (W). YKL074C define el ORF 74 a la izquierda del centrómero del cromosoma XI y denota la hebra codificante de la hebra Crick (C). También se usa ampliamente otro término confuso que se refiere a la hebra "más" y "menos". Cualquiera que sea la hebra con sentido (positivo) o antisentido (negativo), la secuencia de consulta predeterminada en la alineación NCBI BLAST es la hebra "Plus". [4] Tanto las cadenas de Watson como las de Crick pueden ser cadenas con sentido o antisentido según el gen cuyas secuencias se muestren en la base de datos de secuencias del genoma. Por ejemplo, YEL021W, un alias del gen URA3 utilizado en la base de datos del NCBI, define que este gen está ubicado en el marco de lectura abierto (ORF) 21 del centrómero del brazo izquierdo (L) del cromosoma número V (E) de la levadura (Y). ), y que la cadena de codificación de la expresión es la cadena de Watson (W). YKL074C define el ORF 74 a la izquierda del centrómero del cromosoma XI y denota la hebra codificante de la hebra Crick (C). También se usa ampliamente otro término confuso que se refiere a la hebra "más" y "menos". Cualquiera que sea la hebra con sentido (positivo) o antisentido (negativo), la secuencia de consulta predeterminada en la alineación NCBI BLAST es la hebra "Plus".

Aunque es correcto cuando dice

  1. Watson = Sentido = Hilos Plus
  2. Crick = antisentido = hebras negativas

Se proporciona/sugiere una respuesta/convención satisfactoria en este artículo de PMC que cubre la terminología de los hilos de Watson y Crick

A continuación se presentan algunos extractos interesantes de la publicación:

La primera referencia que pudimos encontrar a la "hebra de Watson" y la "hebra de Crick" es algo irónica y proviene de un par de artículos de 1967 de Wacław Szybalski y sus colegas. Unieron las dos cadenas de ADN del fago λ al polinucleótido sintético, poli(IG), que tiene afinidad con las regiones ricas en citosina. Luego separaron las dos hebras por densidad, que resultó estar determinada por la cantidad de poli(IG) unido. En un gradiente de densidad de cloruro de cesio, la hebra con más poli(IG) unido era más densa y pesada que su complemento. Debido a que la hebra "densa" era rica en citosina, Szybalski y sus colegas la llamaron "hebra C". Lógicamente, entonces, la hebra complementaria, que era rica en guanina, debería haber sido la "hebra G". En cambio, fue bautizado como el "hebra W".

Así que los autores señalan que las hebras comenzaron su viaje terminológico con sus roles invertidos, con la hebra Crick especificando la hebra pesada (con IG) y la hebra Watson especificando la más ligera.

También señalan que la terminología actual del modelo de WC no se basa arbitrariamente en la convención de dibujo horizontal actual en la que una hebra se coloca en la parte superior y la otra en la parte inferior.

También sugirieron una convención típica que se sigue hoy. Si se debió a su sugerencia es un asunto completamente diferente, pero más allá del alcance de esta pregunta.

Dada la cantidad de esfuerzo que ya se ha invertido en estandarizar tales bases de datos y su influencia en otras disciplinas, creemos que la definición genómica de las hebras de Watson y Crick tiene la mayor cantidad detrás. Específicamente, encontramos que el uso inequívoco de la base de datos del genoma de Saccharomyces es el más útil. En la primera parte de nuestra propuesta, el centrómero es un punto de referencia que divide un cromosoma en dos brazos de longitud desigual. El cromosoma está orientado de modo que el brazo más corto esté a la izquierda y el brazo más largo a la derecha. Además, la hebra superior tiene su extremo 5' en el telómero izquierdo (brazo corto) y su extremo 3' en el telómero derecho (brazo largo). Esta hebra es la hebra de Watson. De manera similar, la hebra inferior tiene su extremo 5' en el telómero derecho y su 3' en el telómero izquierdo y es la hebra Crick.

y mas adelante...

Si en última instancia es imposible distinguir las hebras de Watson y Crick usando propiedades biológicas, entonces proponemos que Watson se refiera a la base utilizada arbitrariamente como referencia en una base de datos (es decir, la base "más") y la hebra de Crick se refiera a su complemento

Pero volvamos a la secuenciación de datos o archivos FASTQ. Cuando alineamos las lecturas, un archivo SAM o BAM resultante tiene una columna que especifica la información del hilo, generalmente vemos un hilo + o -.

Lo que sugiere que el producto se originó a partir de las hebras de Watson (positiva) o Crick (negativa). Por ejemplo, una lectura es en realidad el complemento inverso del producto, pero dado que realiza un paso de PCR durante la preparación de la biblioteca, ese bit de información en particular se pierde y, por lo tanto, los protocolos de análisis posteriores tienden a considerar todos los loci con los que se alinea cualquier producto individual. .

La diferencia entre la secuenciación específica de cadena y la secuenciación no específica de cadena se cubre aquí .

El estado actual de esta respuesta parece confundir la terminología apropiada para propósitos relativos a genes con la apropiada para propósitos relativos a cromosomas. El relativo al gen usa sentido/antisentido (o codificación/plantilla), mientras que el relativo al cromosoma usa adelante/atrás (o más/menos). Una hebra directa tendrá tanto secuencias con sentido como antisentido. Consulte la respuesta de Bio_X2Y aquí para obtener una descripción precisa y concisa.
Lamento ir más allá que @mgkrebbs y decir que tanto la pregunta como esta respuesta no tienen sentido. No estoy familiarizado con los wikis de la comunidad, pero esto definitivamente no debería ser una referencia estándar. He escrito una respuesta explicando por qué.

El +y -es una clasificación bioinformática. La secuencia de referencia es por defecto +y todos los genes en la orientación opuesta se anotan como -.

Para los cromosomas eycarióticos lineales, la secuencia del genoma de referencia está en la orientación del cromosoma (basado en una asignación citogenética más antigua; por lo general, el brazo corto es 5').

Para los procariotas, supongo que el origen de la replicación es el comienzo del genoma de referencia ( Eisen et al, 2000 ).

Reemplazaría "clasificación bioinformática" por "designación de archivo de datos". Los archivos GenBank y similares son legibles por humanos, por lo que no tienen estrictamente nada que ver con la informática, y no creo que haya ninguna clasificación involucrada.

Responder

No existe tal cosa como una hebra positiva o negativa para un genoma (de referencia o no), por la sencilla razón de que los genomas de casi todos los organismos contienen genes en ambas orientaciones y, por lo tanto, cada hebra contiene genes cuya secuencia está en el mismo sentido. sentido y la dirección antisentido con respecto al ARNm.

La excepción son los virus de ARN monocatenario, en los que una sola hebra puede actuar como ARNm. Aquí es donde se usa principalmente la nomenclatura '+' y '-', para distinguir qué hebra se usa en el genoma del virus.

Anteriormente he abordado este tema en mis respuestas a preguntas relacionadas sobre la dirección de secuencias en bases de datos y marcos de lectura .

Aclaración adicional: ¿Dónde comienzan los genomas de referencia y en qué hebra?

Para encontrar la respuesta a esta pregunta, debe consultar la documentación en la base de datos para el genoma particular de interés. Sin embargo, hasta donde yo sé, lo siguiente es generalmente cierto. (Otros pueden ser capaces de mejorar esto.)

  1. En los genomas de bacterias y plásmidos, la secuencia suele comenzar desde el (único) origen de la replicación, siguiendo la dirección en la que se produce la replicación, escrita a la derecha del origen. La cadena representada en la base de datos es la que comienza con un extremo 5 'a la izquierda en este origen.
  2. En los genomas eucarióticos que han sido bien estudiados, existe una asimetría citoquímica reconocible de los cromosomas (en términos de bandas de heterocromatina y, en algunos casos, 'brazos') y existe una convención para designar un extremo 'izquierdo' y otro 'derecho'. '. En los genomas de referencia la secuencia parte del lado izquierdo convencionalmente visto del cromosoma, presentando la secuencia de ADN de la hebra que tiene el extremo 5'. Proporciono un ejemplo de cómo Genbank indica la direccionalidad 'inversa' de los genes usando el término 'complemento', a continuación.
  3. En los virus de ARN monocatenario, donde se usa la nomenclatura '+' y '-', la secuencia es del '+', comenzando en el extremo 5′.
     complemento génico (11566..11952)
                     /locus_tag="YAL065C"
     Complemento CDS(11566..11952)
                     /locus_tag="YAL065C"
                     /nota="Yal065cp"
                     /codon_start=1
                     /inference="evidencia no experimental, no adicional
                     detalles registrados"
                     /product="Proteína putativa de función desconocida; tiene
                     homología con FLO1; posible pseudogen"
                     /protein_id="NP_009335.1"
                     /db_xref="EUR:S000001817"
                     /db_xref="GI:6319252"
                     /db_xref="GeneID:851232"
                     /translation="MNSATSETTTNTGAAETTTSTGAAETKTVVTSSISRFNHAETQT
                     SATDVIGHSSSVVSVSETGNTKSLITSGLSTMSQQPRSTPASSIIGSSTASLEISTY
                     VGIANGLLTNNGISVFISTVLLAIVW"
     gen 12047..12427
                     /locus_tag="YAL064W-B"
                     /db_xref="Identificación del gen:851233"
     CDS 12047..12427
                     /locus_tag="YAL064W-B"
                     /nota="Yal064w-bp"
                     /codon_start=1
                     /inference="evidencia no experimental, no adicional
                     detalles registrados"
                     /product="Proteína específica de hongos de función desconocida"
                     /protein_id="NP_009336.1"
                     /db_xref="EUR:S000002141"
                     /db_xref="GI:6319253"
                     /db_xref="Identificación del gen:851233"
                     /translation="MAGEAVSEHTPDSQEVTVTSVVCCLDSVVEIGHHVVYSVVTPLI
                     VAVLIDTMAGEAVLEHTSDSQEEIVTTVVCSVVPLVCFVVSVVCFVISVVEIGHHVVY
                     SVVAPLTVTVAVETIAEEMDSVHT"

[Ejemplo de parte del archivo Genbank (NC_001133) que muestra cómo se indica la direccionalidad de dos genes con orientaciones opuestas usando el término 'complemento'.]

Posdata: programas de bioinformática

Como @WYSIWYG indica en su respuesta, ciertos programas de bioinformática que producen tablas de genes indican su dirección usando '+' o '-' para indicar 'de izquierda a derecha' o 'de derecha a izquierda' respectivamente.

Sin embargo, existe una dirección natural que depende de la dirección de la replicación.
@JackAidley — ¿Dirección de replicación? Esto puede ser válido para las bacterias, pero no para los eucariotas. Pero, aunque no era estrictamente la pregunta y el cartel ya no existe, agregué algo acerca de dónde comienzan los "genomas de referencia".
@WYSIWYG: veo su punto de que + y - se usan en los archivos de datos, pero la pregunta del cartel "¿Es positivo el genoma de referencia?" indica claramente que esto no es lo que quiso decir, de lo contrario la respuesta es el trivial '+'. Y los términos cadena + y cadena – se usaban en virología molecular antes de que se inventara la secuenciación de ácidos nucleicos, por lo que, aunque he escrito programas para leer archivos GenBank y estoy familiarizado con esta designación, nunca escuché que se refirieran a ellos como cadena + . La otra respuesta también asume que el cartel está hablando de hebras de "sentido", aunque más bien se va por la tangente.
"...nunca escuché que se refirieran a ellos como hilo +..." Supuestamente acabo de ver "menos" utilizado en una hoja de datos (que se muestra aquí en Stackexchange; podría hacer referencia a) Como el hilo menos es la plantilla utilizado en ingeniería, los bancos de datos se refieren a menos, no a la "cadena de codificación" / cadena positiva?