¿Existe una forma estándar de deducir la longitud de la secuencia de proteínas a partir de la longitud de la secuencia de ADN del gen que la codifica?
Ingenuamente había asumido que amino_acid_seq_length / 3 -1
(borrando uno para el codón de terminación) debería funcionar, pero aparentemente no siempre. ¿Hay una mejor manera?
Supongamos que el gen es eucariótico, específicamente un gen vegetal.
p.ej
O
Si observa la secuencia de ADN en la patente , verá que no comienza con ATG y no termina con un codón de parada. La secuencia descrita tiene algunas bases adicionales, por lo tanto, la discrepancia en la longitud de la proteína y el ADN. Esas bases adicionales casi siempre ocurren en el ADNc, por ejemplo, debido a la poliadenilación, las secuencias de Kozak, etc.
científico
gato_curioso
científico