He predicho algunas repeticiones de SSR en el gen de interés usando el programa SSRLocator, y el resultado me crea una pregunta. Considere la siguiente secuencia, que es parte de la secuencia del gen de interés (secuencia de codificación):
GGTGATGAGGTAGAGGAAGAGGCTGAGGAACCCTACGAAGAAGCCACAGA GAGAACCACCAGCATTG CCACCACCACCACCACCACCA CAGAGTCTGTGG AAGAGGTGGTTCGAGAGGTGTGCTCTGAACAAGCCGAGACGGGGCCGTGC
El programa informó el motivo CCA como una repetición; dado que esta repetición se encuentra en CDS, esperaba encontrar la pista de aminoácidos relacionada (prolina), pero observé la pista de treonina en la secuencia de proteína correspondiente. La treonina está codificada por ACC. Ahora me gustaría saber qué motivo es realmente una repetición, CCA o ACC. ¿Es posible considerar CCA como una repetición, pero solo en el nivel de transcripción, no en la secuencia de proteínas o la repetición real es ACC y el software no funcionó bien aquí? Por favor, compárteme tu opinión al respecto.
Muchas gracias por su ayuda y participación.
Las herramientas de búsqueda de SSR generalmente no tienen idea sobre los CDS: consideran las secuencias de ADN/ARN como cadenas y buscan patrones repetidos en tándem, nada más. También es importante recordar que, en muchos casos de la vida real, diferentes programas con diferentes configuraciones reportarán resultados diferentes.
[Sabiendo que siempre tiene dos hebras en el ADN genómico, se debe tener en cuenta que también los SSR se pueden "leer" en cualquier dirección, de modo que, durante un tramo, ACCACCACC
la unidad se puede informar como ACC
o GGT
. Algunos programas por defecto reportarán las unidades SSR ordenadas según el alfabeto: ACC
en este caso. Ahora, con las secuencias de codificación, la historia es un poco diferente: el ARN solo tiene una hebra, es decir, tiene una dirección, lo que significa que no se pueden "voltear" las secuencias de ARN].
El ARNm, además de tener una dirección, codifica proteínas y las secuencias de proteínas a veces muestran sus propios patrones repetidos. Los SSR en el ARNm son en su mayoría trinucleótidos o con unidades de longitud divisibles por tres y coinciden con las repeticiones de aminoácidos en tándem. Entonces, desde el punto funcional, es una repetición ACC|ACC|ACC|ACC|ACC|ACC|ACA
(tenga en cuenta que el último elemento es ACA
), que codifica la repetición del T|T|T|T|T|T|T
aminoácido respectivo. Para formalizar esta idea, busque SSR en la secuencia de ARN y en la secuencia de proteína e intente encontrar la superposición.
Desde el punto de vista de la ADN-polimerasa [la enzima que cambia la longitud de SSR] es una CCACCACCACCACCACCACCA
repetición perfecta: dentro de estos límites, el fragmento es propenso a deslizarse . Pero para un evento de deslizamiento real, el límite de la unidad no importa. Imagine que la polimerasa "saltó" una CAC
unidad en el medio: CCACCAC[CAC]CACCACCACCA
. El resultado para la secuencia de la proteína será el mismo: menos una treonina.
María
alephreish
AGC
,GCA
oCAG
informaráAGC
.María
alephreish
alephreish
CCACCACCACCACCACCACCAC
.