¿En qué dirección se escribe una secuencia en las bases de datos?

En muchas bases de datos, las secuencias de ADN de las proteínas se dan como una cadena de a,t,g,c sin especificar si el comienzo es desde 5' o desde 3'. Tampoco se especifica si se trata de la hebra codificante o no codificante.

¿Es porque todas las secuencias están escritas desde 5' hasta 3' de la hebra codificante solamente?

¿Hay alguna base de datos específica que tenga en mente que sea ambigua?
@James Estaba escribiendo un código que calcula el #g-#c en cada posición para un genoma de E coli. Se supone que debe mostrar una variación específica cuando se camina en una dirección de 5' a 3'. Me preguntaba si el genoma (esencialmente la cadena de caracteres que tengo) es de 5' a 3' o no. Lo siento si fue demasiado aparente. Soy nuevo en esto.

Respuestas (2)

Direccionalidad

De hecho, es una convención representar las secuencias de ácidos nucleicos en la dirección 5ʹ a 3ʹ.

Esto está implícito en el documento IUPAC/IUB sobre abreviaturas y símbolos para ácidos nucleicos, polinucleótidos y sus constituyentes , aunque no se establece explícitamente, presumiblemente porque fue escrito en 1974, antes de que se establecieran las grandes bases de datos de ácidos nucleicos.

Hebra

En general , no puede suponer nada sobre en qué hebra se encuentra una característica particular. Debe consultar el contexto o la documentación de la base de datos particular que está utilizando.

Prefiero el término 'cadena de sentido' a 'cadena de codificación' como se explica en otra publicación . Sin embargo, esto solo tiene significado en un conjunto restringido de circunstancias relacionadas con el ARNm, particularmente considerando las copias de ADNc de los ARNm eucarióticos. Solo si el contexto indica que este es el caso, puede suponer que la hebra se presenta como una 'hebra de sentido'.

El problema surge del hecho de que para todos (o casi todos) los genomas, los diferentes genes están ubicados en diferentes hebras del ADN: el cromosoma no tiene una "hebra con sentido" o una "hebra codificante" única . Así, para secuencias de ADN en una base de datos como Genbank , es posible lo siguiente:

  • La secuencia de ADN presentada no codifica proteína ni ARN estructural.
  • La secuencia de ADN presentada contiene genes en ambas cadenas.

Se proporciona un ejemplo de esto último en el registro de Sample GenBank, que debe consultarse para comprender la anotación de características en las entradas de secuencias de ADN en GenBank . Esta entrada cromosómica de levadura de 5028 pb codifica dos genes. El primero, AXL2, está anotado:

 gene            687..3158
                 /gene="AXL2"

El segundo, REV7, está anotado:

 gene            complement(3300..4037)
                 /gene="REV7"

Esto indica que, cuando se presenta en la dirección 5ʹ a 3ʹ, el gen REV7 se encuentra en el complemento de la hebra presentada.

@ArjunDevdas Si esto respondió a su pregunta, puede marcarla como aceptada haciendo clic en la marca de verificación.
Impresionante declaración "el cromosoma no tiene una 'cadena de sentido' o 'cadena de codificación' única". En realidad, hay muchos conceptos erróneos sobre el ADN. Otra interpretación errónea casi similar es escribir "En el ADN, una hebra es de 3' a 5' y otra hebra es de 5' a 3'". Solo tiene sentido si escribimos "3' a 5' de izquierda a derecha". De lo contrario, no existe tal "hebra 3' a 5'", ni hay ninguna "hebra 5' a 3'".

La convención es proporcionar la hebra con sentido de 5' a 3'.