¿Cómo determinar el marco de lectura más probable de una secuencia de ADN?

Esta pregunta es de un examen anterior de un módulo de introducción a la bioinformática. Soy un científico informático haciendo biología por primera vez.

"Se ha secuenciado un gen bacteriano corto, dando la siguiente secuencia de ADN. Escriba los 6 marcos de lectura posibles para esta secuencia e indique cuál es la traducción de proteína más probable de esta secuencia. Explique su razonamiento para elegir la traducción dada y escriba todos las traducciones en forma de código de aminoácidos de una sola letra.

5' - ttattcatccgccagcgccatgcgcgccat - 3' "

Creo entender los 6 marcos de lectura posibles: tres desde el extremo 5' comenzando con tta, tat y att; y tres desde el extremo 3' comenzando con tac, acc y ccg.

También podría escribir las traducciones para un marco de lectura dado con una tabla de uso de codones. Es la parte del marco de lectura más probable que no entiendo. Pensé que tal vez estaba buscando el marco de lectura abierto más largo. Solo puedo ver un codón de inicio (atg). ¿Cuál es la forma correcta de reconocer el marco de lectura más probable?

No puedo encontrar este problema exactamente en Biology Stack Exchange. Encontré:

Ayuda para leer cromatograma 

Me hizo preguntarme si me estoy confundiendo entre "marco de lectura" y "marco de lectura abierto", esta pregunta solo pregunta o la primera.

¡Gracias!

Esta es una pregunta terriblemente artificial, pero suponiendo que la secuencia represente el marco de lectura completo , ¿qué debe tener en cuenta además de los codones de inicio? Me gusta su sugerencia sobre el uso de codones, pero no es tan sofisticado como eso.
Gracias por responderme tan rápido. Todavía no estoy seguro, pero tenía algunas ideas.
1) Longitud del marco, lo suficientemente larga como para codificar algo útil, pero aún así sería la longitud entre un codón de inicio y finalización. 2) Presencia de etiquetas de secuencia expresadas, aunque no sabría cómo decirle si alguna secuencia contenía una EST y sospecho que tienen más de 30 bases. 3) La presencia de aminoácidos más o menos "probables", por ejemplo, ¿la secuencia tiene más de los aminoácidos más frecuentes (que creo que son serina y leucina), pero no creo que se espere que sepamos esto? .
4) La presencia de subsecuencias comunes que podrían indicar, por ejemplo, estructuras secundarias comunes; nuevamente, esto no es algo de lo que hayamos hablado en nuestro curso. 5) Errores de lectura de secuencias en el laboratorio. Busque dónde podría haber codones de inicio y finalización si solo cambiara una (o dos) bases. Por ejemplo, en el marco de lectura que comienza con "att" desde el extremo 5', podría cambiar ese primer triple a "atg" para convertirlo en un codón de inicio, luego quizás el último "cca" debería haber sido un codón de terminación tta. 6) ¿Sitios de promotores?
Dado que ha dicho que es fácil, (2) a (6) parecen más difíciles de lo que estaba pensando originalmente. En términos más generales, no puedo ver cómo no puede tener un codón de parada y seguir siendo un gen. Gracias de nuevo.
OK, he proporcionado una respuesta.
Los 3 marcos de lectura del extremo 3' usan la "otra" cadena de ADN, es decir, ATG y otras dos. Los expertos en ciencias matemáticas y computacionales contribuyen en gran medida a la bioinformática después de un poco de educación. ¡Buena suerte!

Respuestas (1)

Esto es lo que clasificamos como una pregunta de tarea, pero como satisface el criterio del cartel que demuestra un intento de responderla, proporciono la siguiente sugerencia de respuesta.

Supongo que como apareció en un módulo introductorio de bioinformática, la pregunta del examen es solo probar los marcos de lectura (obviamente) y la puntuación del código genético . El significado no está del todo claro, pero como un marco de lectura comenzaría con el codón de iniciación ATG/AUG (complemento inverso de: cat - 3′)† y terminaría con el codón de terminación TAA/UAA (complemento inverso de: 5′ - tta ) que presumiblemente producirá "la traducción de proteína más probable".

Este es el marco de lectura F4 en la salida de EMBOSS Sixpack , a continuación, en el que los codones de terminación se indican con un asterisco.

      L  F  I  R  Q  R  H  A  R  H                                   F1
       Y  S  S  A  S  A  M  R  A  X                                  F2
        I  H  P  P  A  P  C  A  P  X                                 F3
    1 ttattcatccgccagcgccatgcgcgccat 30
      ----:----|----:----|----:----|
    1 aataagtaggcggtcgcggtacgcgcggta 30
       X  N  M  R  W  R  W  A  R  W                                  F6
      X  I  *  G  G  A  G  H  A  G                                   F5
        *  E  D  A  L  A  M  R  A  M                                 F4

La traducción conceptual, que lee de la N a la C , es MARMALADE, que obviamente pretende ser humorística y sugiere que, de hecho, es la respuesta prevista.

Marcos de lectura abiertos

El cartel pide aclaración de la diferencia entre el marco de lectura y el marco de lectura abierto . Hay una entrada de Wikipedia para el marco de lectura abierto , pero proporciono una explicación propia para relacionarla con el ejemplo.

Siempre hay seis marcos de lectura para la traducción conceptual de una pieza de ADN de doble cadena, como se muestra en el ejemplo.

Definiría un marco de lectura abierto como aquel que no está excluido de ser traducido por la puntuación del código genético. Tiene el potencial teórico de ser traducido considerando solo la puntuación del código, aunque es posible que no se traduzca realmente. Puede comenzar con el primer AUG después de un codón de terminación (aunque no puede estar seguro de que este sea el AUG real utilizado) o el comienzo de un fragmento secuenciado de ADN (suponiendo que es posible que un AUG preceda al extremo 5 ' del fragmento). Puede terminar con un codón de terminación o con el final del fragmento secuenciado (asumiendo que un codón de terminación estará 5' al final del fragmento).

Según estos criterios, los marcos de lectura F1, F2, F3 y F6 anteriores están completamente abiertos (aunque la metionina interna teóricamente podría ser un codón de iniciación), F5 contiene el marco de lectura abierto GAHGAGG y F4 es un marco de lectura completamente abierto, quizás excluyendo el codón de terminación (dependiendo de su definición semántica del final preciso de un marco de lectura abierto).

† Complemento inverso

Si tomamos una sección de ADN escrita en la dirección de 5′ a 3′ (de acuerdo con la convención estándar) y usamos las equivalencias de emparejamiento de bases de Watson-Crick (A=T, G=C) para generar la hebra complementaria , esta estará en la dirección de 3′ a 5′. Para el hilo en la pregunta,

5′ - ttattcatccgccagcgccatgcgcgccat - 3′

la cadena complementaria es:

3′ - aataagtaggcggtcgcggtacgcgcggta - 5′

Como se muestra arriba.

Para facilitar la traducción manual, y para cualquier programa de computadora que manipule secuencias, es necesario invertir esto a la dirección de 5′ a 3′:

5′ - atggcgcgcatggcgctggcggatgaataa - 3′

Este es el complemento inverso . Ahora, los comienzos de los tres marcos de lectura inversa son fáciles de leer como:

ATG...
 TGG...
  GGC...
Podría ser útil (especialmente para alguien sin una sólida formación en biología) ampliar el tema del complemento inverso. Según la pregunta, parece que esta era probablemente la parte que le estaba dando problemas al OP.
@David Bueno, me siento tonto, pero también agradecido por la excelente respuesta. Tenía visión de túnel, pero ahora es obvio. Por interés, ¿qué te hizo describir la pregunta inicialmente como "terriblemente artificial"?
@azure_reflection: la mayoría de las proteínas son mucho más largas que nueve aminoácidos, y los programas que predicen genes generalmente tienen un límite de quizás 30. (Alguien más podría brindarle distribuciones de tamaño precisas). Hay excepciones (en biología siempre hay excepciones). En eucariotas, algunos péptidos pequeños se generan por traducción de orfs pequeños que preceden al AUG predominante. Pero, por experiencia, simpatizo con los profesores que plantean preguntas de examen tipo problema.
@Astrolamb - hecho.