Es una pregunta simple, pero me he encontrado con muchas personas que tienen esta pregunta: ¿el genoma de referencia es positivo o negativo? De hecho, he tenido discusiones acaloradas sobre el mismo tema.
Así que aquí está para poner todas esas preguntas a descansar.
¿El genoma de referencia es una cadena positiva o negativa? Y por qué así.
En primer lugar, la especificidad de la hebra del genoma de referencia se denomina sentido (hebra positiva) o antisentido (hebra negativa). Ahora consideremos la secuenciación de datos o archivos FASTQ. Cuando alineamos las lecturas, un archivo SAM o BAM resultante tiene una columna que especifica la información del hilo, generalmente vemos un hilo + o -.
Para obtener más información sobre los nombres de las hebras, aquí hay una nota algo incorrecta del artículo de wiki en sentido (biología molecular)
Los nombres de las hebras en realidad dependen de la dirección en la que está escribiendo la secuencia que contiene la información de las proteínas (la información de "sentido"), no de qué hebra está en la parte superior o inferior (eso es arbitrario). La única información biológica real que es importante para marcar cadenas es la ubicación del grupo fosfato 5' y el grupo hidroxilo 3' porque estos extremos determinan la dirección de la transcripción y la traducción. Una secuencia 5' CGCTAT 3' es equivalente a una secuencia escrita 3' TATCGC 5' siempre que se anoten los extremos 5' y 3'. Si los extremos no están etiquetados, la convención es suponer que la secuencia está escrita en la dirección de 5' a 3'. La hebra de Watson se refiere a la hebra superior de 5' a 3' (5' → 3'), mientras que la hebra de Crick se refiere a la hebra inferior de 5' a 3' (3' ← 5' ).[4] Tanto las cadenas de Watson como las de Crick pueden ser cadenas con sentido o antisentido según el gen cuyas secuencias se muestren en la base de datos de secuencias del genoma. Por ejemplo, YEL021W, un alias del gen URA3 utilizado en la base de datos del NCBI, define que este gen está ubicado en el marco de lectura abierto (ORF) 21 del centrómero del brazo izquierdo (L) del cromosoma número V (E) de la levadura (Y). ), y que la cadena de codificación de la expresión es la cadena de Watson (W). YKL074C define el ORF 74 a la izquierda del centrómero del cromosoma XI y denota la hebra codificante de la hebra Crick (C). También se usa ampliamente otro término confuso que se refiere a la hebra "más" y "menos". Cualquiera que sea la hebra con sentido (positivo) o antisentido (negativo), la secuencia de consulta predeterminada en la alineación NCBI BLAST es la hebra "Plus". [4] Tanto las cadenas de Watson como las de Crick pueden ser cadenas con sentido o antisentido según el gen cuyas secuencias se muestren en la base de datos de secuencias del genoma. Por ejemplo, YEL021W, un alias del gen URA3 utilizado en la base de datos del NCBI, define que este gen está ubicado en el marco de lectura abierto (ORF) 21 del centrómero del brazo izquierdo (L) del cromosoma número V (E) de la levadura (Y). ), y que la cadena de codificación de la expresión es la cadena de Watson (W). YKL074C define el ORF 74 a la izquierda del centrómero del cromosoma XI y denota la hebra codificante de la hebra Crick (C). También se usa ampliamente otro término confuso que se refiere a la hebra "más" y "menos". Cualquiera que sea la hebra con sentido (positivo) o antisentido (negativo), la secuencia de consulta predeterminada en la alineación NCBI BLAST es la hebra "Plus". [4] Tanto las cadenas de Watson como las de Crick pueden ser cadenas con sentido o antisentido según el gen cuyas secuencias se muestren en la base de datos de secuencias del genoma. Por ejemplo, YEL021W, un alias del gen URA3 utilizado en la base de datos del NCBI, define que este gen está ubicado en el marco de lectura abierto (ORF) 21 del centrómero del brazo izquierdo (L) del cromosoma número V (E) de la levadura (Y). ), y que la cadena de codificación de la expresión es la cadena de Watson (W). YKL074C define el ORF 74 a la izquierda del centrómero del cromosoma XI y denota la hebra codificante de la hebra Crick (C). También se usa ampliamente otro término confuso que se refiere a la hebra "más" y "menos". Cualquiera que sea la hebra con sentido (positivo) o antisentido (negativo), la secuencia de consulta predeterminada en la alineación NCBI BLAST es la hebra "Plus".
Aunque es correcto cuando dice
Se proporciona/sugiere una respuesta/convención satisfactoria en este artículo de PMC que cubre la terminología de los hilos de Watson y Crick
A continuación se presentan algunos extractos interesantes de la publicación:
La primera referencia que pudimos encontrar a la "hebra de Watson" y la "hebra de Crick" es algo irónica y proviene de un par de artículos de 1967 de Wacław Szybalski y sus colegas. Unieron las dos cadenas de ADN del fago λ al polinucleótido sintético, poli(IG), que tiene afinidad con las regiones ricas en citosina. Luego separaron las dos hebras por densidad, que resultó estar determinada por la cantidad de poli(IG) unido. En un gradiente de densidad de cloruro de cesio, la hebra con más poli(IG) unido era más densa y pesada que su complemento. Debido a que la hebra "densa" era rica en citosina, Szybalski y sus colegas la llamaron "hebra C". Lógicamente, entonces, la hebra complementaria, que era rica en guanina, debería haber sido la "hebra G". En cambio, fue bautizado como el "hebra W".
Así que los autores señalan que las hebras comenzaron su viaje terminológico con sus roles invertidos, con la hebra Crick especificando la hebra pesada (con IG) y la hebra Watson especificando la más ligera.
También señalan que la terminología actual del modelo de WC no se basa arbitrariamente en la convención de dibujo horizontal actual en la que una hebra se coloca en la parte superior y la otra en la parte inferior.
También sugirieron una convención típica que se sigue hoy. Si se debió a su sugerencia es un asunto completamente diferente, pero más allá del alcance de esta pregunta.
Dada la cantidad de esfuerzo que ya se ha invertido en estandarizar tales bases de datos y su influencia en otras disciplinas, creemos que la definición genómica de las hebras de Watson y Crick tiene la mayor cantidad detrás. Específicamente, encontramos que el uso inequívoco de la base de datos del genoma de Saccharomyces es el más útil. En la primera parte de nuestra propuesta, el centrómero es un punto de referencia que divide un cromosoma en dos brazos de longitud desigual. El cromosoma está orientado de modo que el brazo más corto esté a la izquierda y el brazo más largo a la derecha. Además, la hebra superior tiene su extremo 5' en el telómero izquierdo (brazo corto) y su extremo 3' en el telómero derecho (brazo largo). Esta hebra es la hebra de Watson. De manera similar, la hebra inferior tiene su extremo 5' en el telómero derecho y su 3' en el telómero izquierdo y es la hebra Crick.
y mas adelante...
Si en última instancia es imposible distinguir las hebras de Watson y Crick usando propiedades biológicas, entonces proponemos que Watson se refiera a la base utilizada arbitrariamente como referencia en una base de datos (es decir, la base "más") y la hebra de Crick se refiera a su complemento
Pero volvamos a la secuenciación de datos o archivos FASTQ. Cuando alineamos las lecturas, un archivo SAM o BAM resultante tiene una columna que especifica la información del hilo, generalmente vemos un hilo + o -.
Lo que sugiere que el producto se originó a partir de las hebras de Watson (positiva) o Crick (negativa). Por ejemplo, una lectura es en realidad el complemento inverso del producto, pero dado que realiza un paso de PCR durante la preparación de la biblioteca, ese bit de información en particular se pierde y, por lo tanto, los protocolos de análisis posteriores tienden a considerar todos los loci con los que se alinea cualquier producto individual. .
La diferencia entre la secuenciación específica de cadena y la secuenciación no específica de cadena se cubre aquí .
El +
y -
es una clasificación bioinformática. La secuencia de referencia es por defecto +
y todos los genes en la orientación opuesta se anotan como -
.
Para los cromosomas eycarióticos lineales, la secuencia del genoma de referencia está en la orientación del cromosoma (basado en una asignación citogenética más antigua; por lo general, el brazo corto es 5').
Para los procariotas, supongo que el origen de la replicación es el comienzo del genoma de referencia ( Eisen et al, 2000 ).
Responder
No existe tal cosa como una hebra positiva o negativa para un genoma (de referencia o no), por la sencilla razón de que los genomas de casi todos los organismos contienen genes en ambas orientaciones y, por lo tanto, cada hebra contiene genes cuya secuencia está en el mismo sentido. sentido y la dirección antisentido con respecto al ARNm.
La excepción son los virus de ARN monocatenario, en los que una sola hebra puede actuar como ARNm. Aquí es donde se usa principalmente la nomenclatura '+' y '-', para distinguir qué hebra se usa en el genoma del virus.
Anteriormente he abordado este tema en mis respuestas a preguntas relacionadas sobre la dirección de secuencias en bases de datos y marcos de lectura .
Aclaración adicional: ¿Dónde comienzan los genomas de referencia y en qué hebra?
Para encontrar la respuesta a esta pregunta, debe consultar la documentación en la base de datos para el genoma particular de interés. Sin embargo, hasta donde yo sé, lo siguiente es generalmente cierto. (Otros pueden ser capaces de mejorar esto.)
complemento génico (11566..11952) /locus_tag="YAL065C" Complemento CDS(11566..11952) /locus_tag="YAL065C" /nota="Yal065cp" /codon_start=1 /inference="evidencia no experimental, no adicional detalles registrados" /product="Proteína putativa de función desconocida; tiene homología con FLO1; posible pseudogen" /protein_id="NP_009335.1" /db_xref="EUR:S000001817" /db_xref="GI:6319252" /db_xref="GeneID:851232" /translation="MNSATSETTTNTGAAETTTSTGAAETKTVVTSSISRFNHAETQT SATDVIGHSSSVVSVSETGNTKSLITSGLSTMSQQPRSTPASSIIGSSTASLEISTY VGIANGLLTNNGISVFISTVLLAIVW" gen 12047..12427 /locus_tag="YAL064W-B" /db_xref="Identificación del gen:851233" CDS 12047..12427 /locus_tag="YAL064W-B" /nota="Yal064w-bp" /codon_start=1 /inference="evidencia no experimental, no adicional detalles registrados" /product="Proteína específica de hongos de función desconocida" /protein_id="NP_009336.1" /db_xref="EUR:S000002141" /db_xref="GI:6319253" /db_xref="Identificación del gen:851233" /translation="MAGEAVSEHTPDSQEVTVTSVVCCLDSVVEIGHHVVYSVVTPLI VAVLIDTMAGEAVLEHTSDSQEEIVTTVVCSVVPLVCFVVSVVCFVISVVEIGHHVVY SVVAPLTVTVAVETIAEEMDSVHT"
[Ejemplo de parte del archivo Genbank (NC_001133) que muestra cómo se indica la direccionalidad de dos genes con orientaciones opuestas usando el término 'complemento'.]
Posdata: programas de bioinformática
Como @WYSIWYG indica en su respuesta, ciertos programas de bioinformática que producen tablas de genes indican su dirección usando '+' o '-' para indicar 'de izquierda a derecha' o 'de derecha a izquierda' respectivamente.
WYSIWYG
DobladoCromatina
David
WYSIWYG