¿Cómo interpretar la repetición de secuencia simple (SSR) en la secuencia de codificación, pero no la secuencia de proteína relacionada?

He predicho algunas repeticiones de SSR en el gen de interés usando el programa SSRLocator, y el resultado me crea una pregunta. Considere la siguiente secuencia, que es parte de la secuencia del gen de interés (secuencia de codificación):

GGTGATGAGGTAGAGGAAGAGGCTGAGGAACCCTACGAAGAAGCCACAGA GAGAACCACCAGCATTG CCACCACCACCACCACCACCA CAGAGTCTGTGG AAGAGGTGGTTCGAGAGGTGTGCTCTGAACAAGCCGAGACGGGGCCGTGC

El programa informó el motivo CCA como una repetición; dado que esta repetición se encuentra en CDS, esperaba encontrar la pista de aminoácidos relacionada (prolina), pero observé la pista de treonina en la secuencia de proteína correspondiente. La treonina está codificada por ACC. Ahora me gustaría saber qué motivo es realmente una repetición, CCA o ACC. ¿Es posible considerar CCA como una repetición, pero solo en el nivel de transcripción, no en la secuencia de proteínas o la repetición real es ACC y el software no funcionó bien aquí? Por favor, compárteme tu opinión al respecto.

Muchas gracias por su ayuda y participación.

Respuestas (1)

Las herramientas de búsqueda de SSR generalmente no tienen idea sobre los CDS: consideran las secuencias de ADN/ARN como cadenas y buscan patrones repetidos en tándem, nada más. También es importante recordar que, en muchos casos de la vida real, diferentes programas con diferentes configuraciones reportarán resultados diferentes.

[Sabiendo que siempre tiene dos hebras en el ADN genómico, se debe tener en cuenta que también los SSR se pueden "leer" en cualquier dirección, de modo que, durante un tramo, ACCACCACCla unidad se puede informar como ACCo GGT. Algunos programas por defecto reportarán las unidades SSR ordenadas según el alfabeto: ACCen este caso. Ahora, con las secuencias de codificación, la historia es un poco diferente: el ARN solo tiene una hebra, es decir, tiene una dirección, lo que significa que no se pueden "voltear" las secuencias de ARN].

El ARNm, además de tener una dirección, codifica proteínas y las secuencias de proteínas a veces muestran sus propios patrones repetidos. Los SSR en el ARNm son en su mayoría trinucleótidos o con unidades de longitud divisibles por tres y coinciden con las repeticiones de aminoácidos en tándem. Entonces, desde el punto funcional, es una repetición ACC|ACC|ACC|ACC|ACC|ACC|ACA(tenga en cuenta que el último elemento es ACA), que codifica la repetición del T|T|T|T|T|T|Taminoácido respectivo. Para formalizar esta idea, busque SSR en la secuencia de ARN y en la secuencia de proteína e intente encontrar la superposición.

Desde el punto de vista de la ADN-polimerasa [la enzima que cambia la longitud de SSR] es una CCACCACCACCACCACCACCArepetición perfecta: dentro de estos límites, el fragmento es propenso a deslizarse . Pero para un evento de deslizamiento real, el límite de la unidad no importa. Imagine que la polimerasa "saltó" una CACunidad en el medio: CCACCAC[CAC]CACCACCACCA. El resultado para la secuencia de la proteína será el mismo: menos una treonina.

Muchas gracias por su agradable respuesta. Dado que la ADN polimerasa a menudo es propensa a deslizarse en las secuencias repetidas, la unidad repetida puede ser una unidad CCA como indica el software. Pero, ¿qué hay de las situaciones en las que coinciden la secuencia de ARN y las secuencias de proteínas relacionadas? la unidad de repetición CAG es uno de los ejemplos famosos que generó un tracto de poliglutamina en la secuencia de proteínas que resultó en alguna enfermedad humana como Hungtingtun. ¿Podría ayudarme a averiguar qué sucedió, cómo ocurrió el deslizamiento de la polimerasa aquí?
Si tiene una región repetida, la reasociación de la segunda cadena recién sintetizada puede provocar el cebado de la ADN polimerasa en una ubicación diferente. En algún lugar en el medio ya no es posible "decir" si la primera unidad comenzó con C, A o G. Esta lógica se implementa, por ejemplo, en Phobos : puede informar "forma alfabética normal dada por la cadena alfabéticamente mínima entre todos los ciclos cíclicos". permutaciones de la unidad", es decir, para SSR con las primeras unidades repetidas siendo AGC, GCAo CAGinformará AGC.
Sí, claro. Sin embargo, estoy un poco preocupado acerca de cómo debo reportar la unidad repetida en esta secuencia.
Tal como está: "tal y cual herramienta identificó en esta secuencia un SSR con la siguiente unidad de trinucleótido: ***, que corresponde a un tramo de siete aminoácidos de treonina en la secuencia traducida". La formulación exacta para *** depende del programa: SSRLocator informa "CCA", Phobos informa "ACC". En ambos casos, puede mencionar que el ARN SSR se desplaza en relación con la repetición de la proteína (si es relevante).
Por cierto, Phobos identifica aquí (correctamente) un SSR con una longitud de 22: CCACCACCACCACCACCACCAC.