Terminología de las secuencias de promotores en relación con las hebras de ADN

Estoy estudiando biología molecular y estoy tratando de entender un experimento que muestra la importancia de los promotores en el nivel relativo de transcripción (RT). La imagen de abajo proviene del libro de Rolf Knippers "Molekulare Genetik" (8ª edición).

ingrese la descripción de la imagen aquí

La leyenda dice (entre otras cosas):

Die erste Zeile gibt die normale "Wildtyp"-Sequenz der 5'-flankierenden Region wieder.

Que, en inglés, significa algo así como:

La primera línea repite la secuencia normal de tipo salvaje de la región flanqueante 5'.

La columna de la derecha proporciona el nivel de transcripción relativo (RT), siendo 1,0 el nivel de transcripción más alto posible. Como podemos ver, las líneas en las que se han eliminado algunas partes de la "región 5'" dan niveles de RT bastante bajos, ya que faltan algunas regiones del promotor.

Mis preguntas son las siguientes:

1) De acuerdo con this y this , entiendo que la ARN polimerasa lee y usa hebras codificantes y no codificantes para sintetizar ARN. Por lo tanto, ¿cómo se las arreglaron para usar las regiones de hebras de secuencias que habían sido eliminadas para hacer que una polimerasa las "leyera" y realizara la transcripción?

2) Si la polimerasa lee la hebra plantilla en el sentido 3' -> 5', ¿no deberíamos hablar de "caja ATAT" o "caja TAAC" en lugar de cajas "TATA" o "CAAT"? ¿Significa que las regiones "promotoras" que están usando en el gráfico anterior están realmente en el hilo de codificación?

Muchas gracias por tu ayuda.

Podrías aclarar tu problema. Por lo que puedo ver, los resultados son (1) la eliminación del elemento específico de globina reduce la transcripción al 10 % (2) la eliminación adicional de la caja CAAT la reduce al 2 % (3) la eliminación adicional de la caja TATA la reduce al 0,5%. ¿Está preguntando por qué los valores para (1) y (2) no son cero en lugar de pequeños pero distintos de cero? (Yo diría que (3) es cero). Además, los documentos que cita no dicen nada sobre secuencias de codificación (es decir, aquellos con tripletes que contienen información de aminoácidos). ¿Te refieres a hebras de codificación ?
PD He usado su término "hebra de codificación", pero es mejor evitarlo ya que causa una gran confusión. Si aclara su primera pregunta, me ocuparé de su segunda pregunta, que ilustra los nudos que puede atar cuando usa estos términos.
@David Sí, quise decir el hilo de codificación, lo siento. El principal problema que tengo (para mi segunda pregunta) es que, dado que se supone que la ARN polimerasa lee una cadena de plantilla (es decir, cadena no codificante) en un sentido 3'->5', no entiendo por qué el promotor Las regiones (caja TATA & co.) están en el lado 5' del sitio de inicio de la transcripción. Mi primera pregunta en realidad se refiere a los métodos del experimento: ¿cómo podría una polimerasa leer o usar una hebra que está en un sentido de 5'->3' (ya que se supone que debe leer en un sentido de 3'->5'), y, además, ¿cómo podría usarlo si el hilo de codificación no está allí?
Las secuencias de genes se dan como cadena codificante por convención. Esto no dice nada sobre a qué cadena se unen los factores de transcripción. La proteína que se une a la caja TATA, por ejemplo, en realidad interactúa con ambas hebras.
DE ACUERDO. Parecería que sus problemas son los de un principiante que no está familiarizado con las convenciones, que se derivan de una combinación de historia, consistencia lógica y neutralidad científica en cuanto a la interpretación. Publicaré una respuesta completa, si nadie más lo hace. Pero ahora es Mahlzeit aquí en Europa y estoy ocupado mañana por la mañana.
Edité su pregunta, alteré el título para enfocarme en la pregunta de nomenclatura y realicé algunos otros cambios menores. Siempre puedes revertirlos si no te gustan.

Respuestas (1)

Parece que esta pregunta es de terminología, por lo que la estoy respondiendo como tal.

Convención para representar características en secuencias de ADN

La convención es que al indicar cualquier característica de la secuencia† en un gen que codifica una proteína en el ADN de doble cadena, se representa una sola cadena‡: aquella de la que se puede leer la secuencia de aminoácidos utilizando el código genético (conceptualmente, sustituyendo T por U). Como cualquier otra secuencia de ácido nucleico§, siempre se escribe en la dirección 5ʹ a 3ʹ de la misma manera que el ARNm transcrito a partir de ella, sin que esto se indique explícitamente.

† Una excepción podría ser la hemimetilación, en cuyo caso se mostrarían ambas cadenas.

‡ A esto lo llamo el hilo de los sentidos . Discuto la nomenclatura más adelante.

§ Una excepción es que los anticodones de ARNt a veces se escriben en la dirección 3ʹ a 5ʹ para facilitar la comparación con el codón, pero en este caso se indica la direccionalidad.

Origen y justificación de esta convención

  1. histórico _ La secuencia de aminoácidos de la proteína (el producto del gen) es fundamental para esta convención porque el conocimiento del código genético y, por lo tanto, la representación de la región del ARNm que codifica la proteína y, por extensión, el ADN, fue la primera información de secuencia. ser conocido.

  2. Coherencia lógica . Más tarde se identificaron otras características de secuencias (algunas de las cuales inicialmente pueden haber sido sólo características genéticas), por ejemplo, sitios de unión a ribosomas, señales de adición de poliadenilación, sitios de inicio de transcripción, promotores, sitios de reconocimiento de factores de transcripción. Era lógicamente coherente representarlos en la misma hebra que la secuencia de codificación.

  3. Agnosticismo funcional . En muchos casos, la función de una secuencia seguía su descripción, por lo que inicialmente no había ninguna razón para ubicarla en una hebra en particular. Sin embargo, incluso si se pensara que la función de alguna secuencia se reconocería en la hebra opuesta (lo que yo llamaría la hebra antisentido ), sería científicamente imprudente cambiar la representación para indicar esto. La ciencia avanza y la interpretación cambia. Es mejor separar las características descriptivas concretas de las conclusiones sobre su función.

Nunca podría ser una caja ATAT

Incluso si representara la caja TATA en el hilo antisentido, nunca podría llamarse 'caja ATAT' (como sugiere el cartel) porque, de acuerdo con la convención básica, ATAT es 5ʹ-ATAT-3ʹ, y en la hebra antisentido, la secuencia es 3ʹ-ATAT-5ʹ, es decir, ¡TATA!

Terminología para referirse a las dos hebras de dsDNA

Mientras que lo anterior es la convención seguida universalmente, lo siguiente es solo mi opinión. En ciencia, la terminología es importante para comunicar ideas sin ambigüedades, por lo que creo que vale la pena explicar la ambigüedad en algunos de los términos, cuyo uso desaconsejo.

Sentido y antisentido Este es mi término preferido porque, aunque no es perfecto, evita las trampas de los demás. La idea me parece clara de que cuando lees la cadena de codones que codifican la secuencia de aminoácidos de esta hebra, "tienen sentido". (El antisentido se usa con preferencia al sin sentido, ya que 'sin sentido' fue el término usado históricamente para las mutaciones que convertían los codones de aminoácidos en codones de parada). También se puede extender a genes que no codifican proteínas (por ejemplo, para tRNA) , donde 'sentido' se correlaciona con la secuencia del producto génico.

Usaré 'sentido' y 'antisentido' como terminología de referencia al discutir otros términos.

Codificantes y no codificantes Esto tiene la desventaja de que no puede extenderse a genes que no codifican proteínas. Sin embargo, mi objeción principal es que puede causar confusión, ya que la codificación solo se refiere inequívocamente al ARNm. Como la hebra antisentido es la plantilla para la ARN polimerasa, uno podría hacer la asociación mental entre esto y 'codificación', mientras que es la hebra sentido lo que se entiende en este uso (ciertamente común).

Plantilla y no plantilla Plantilla podría ser un término más lógico para la hebra antisentido, ya que es la plantilla para la transcripción por parte de la ARN polimerasa (aunque el ARNm también es una plantilla para la traducción). Sin embargo, se usa con poca frecuencia.

Más y menos Esta terminología se utiliza para virus monocatenarios (especialmente ARN) para representar el genoma completo, mientras que en los virus de cadena positiva el genoma también es el ARNm, es decir, la cadena con sentido. Un problema aquí es que puede resultar confuso para el principiante, quien por extrapolación puede suponer que en los genomas de ADN de doble cadena una cadena es la cadena con sentido para todos los genes. No lo es. Lo cual me lleva a mi último punto…

…cualquiera que sea la terminología que utilice, es mejor asegurarse de que quede claro que se está refiriendo a la hebra con sentido o antisentido de un gen , no a todo el genoma . Necesita emplear alguna otra terminología para distinguir entre las dos hebras de, por ejemplo, ADN bacteriano o plásmido si es necesario distinguirlas.

¡Muchas gracias por tu completa respuesta! Fue muy informativo y probablemente volveré a él si me confundo con todo esto nuevamente. :)
@David Respuesta muy útil, pero ¿podría usted/alguien proporcionar una documentación (como IUBMB) para "La convención es que al indicar cualquier característica de secuencia† en un gen que codifica proteínas en el ADN de doble cadena, se representa una sola cadena‡: aquel del que se podría leer la secuencia de aminoácidos usando el código genético (conceptualmente, con T sustituida por U)."? ¿Especialmente porque las convenciones son reglas hechas por humanos, por lo que debe haber una documentación accesible universalmente?
@AlwaysConfused: revisé el IUBMB, pero todo lo que pude encontrar data de la década de 1960 o más o menos. Creo que la cuestión de la terminología aprobada por la IUBMB se ha desviado de las prácticas empíricas adoptadas por los bancos de datos. Estudié cuidadosamente el formato GenBank para escribir un programa de computadora que lo analizara, así que lo que he escrito es, en efecto, mi propia descripción de eso. El único documento que tengo es "The DDBJ/EMBL/GenBank Feature Table" (2000), que describe la anotación en lugar de la convención de secuencia". Puede encontrar algo en ncbi.nlm.nih.gov/WebSub/?tool=genbank .
Gracias, lo haré como una pregunta separada, tal como se discutió con la comunidad. Además, ¿qué página(s) de BankIt (su enlace) revisaré? Hice clic en el hipervínculo allí, pero no pude encontrar nada útil sobre mi pregunta. Además, todavía no estoy muy familiarizado con la bioinformática.
También me falta la idea de los scripts de programación que están usando.
@AlwaysConfused: le di un enlace a BankIt porque si está enviando secuencias, presumiblemente le dice explícitamente cuál es la convención en algún momento. Tendrías que tomarte el tiempo de revisarlo a fondo para averiguarlo.
Gracias por enseñarme sobre la base de datos. Actualmente no estoy enviando una secuencia, pero estoy tratando de aprender los conceptos básicos y de manera escéptica.