Deducción de la longitud de la secuencia de proteínas a partir de la longitud de la secuencia de ADN del gen

¿Existe una forma estándar de deducir la longitud de la secuencia de proteínas a partir de la longitud de la secuencia de ADN del gen que la codifica?

Ingenuamente había asumido que amino_acid_seq_length / 3 -1(borrando uno para el codón de terminación) debería funcionar, pero aparentemente no siempre. ¿Hay una mejor manera?

Supongamos que el gen es eucariótico, específicamente un gen vegetal.

p.ej

ingrese la descripción de la imagen aquí

O

ingrese la descripción de la imagen aquí

(AA Seq. / 3 ) - 1 debería ser un buen aproximado en bacterias y arqueas. Dado que generalmente el ARN de transcripción es maduro. En el organismo eucariótico, tiene todo tipo de complejidad de procesamiento, por lo que, a menos que empalme la secuencia de intrones, no sabrá con certeza la secuencia de la proteína
Gracias @SciEnt. Pero si expresa un gen eucariótico en algo como E Coli, la proteína recombinante resultante aún debería ser (AA / 3) - 1 ya que carecerán de la maquinaria de procesamiento posterior.
gato_curioso, si eso es lo que esperaríamos, tienes razón.

Respuestas (1)

Si observa la secuencia de ADN en la patente , verá que no comienza con ATG y no termina con un codón de parada. La secuencia descrita tiene algunas bases adicionales, por lo tanto, la discrepancia en la longitud de la proteína y el ADN. Esas bases adicionales casi siempre ocurren en el ADNc, por ejemplo, debido a la poliadenilación, las secuencias de Kozak, etc.

¡Gracias! Entonces, si quisiera usar la secuencia para (digamos) la expresión heteróloga, ¿sería imperativo corregir esas aberraciones? es decir, ¿cómo se infiere cuál será la longitud correcta del aminoácido o qué bases son exactamente las bases adicionales? En otras palabras, ¿cómo se "limpia" una secuencia de ADNc?
Puedes usar una herramienta como esta: web.expasy.org/translate Solo ingresa la secuencia y busca el marco de lectura abierto más largo.
Gracias de nuevo Ashafix. Eso me explica muchas cosas. Una pequeña pregunta: su herramienta predice la proteína 569 AA correcta en el caso de mi segundo fragmento. Genial. Pero en el caso de la primera secuencia, la herramienta da 569, mientras que el fragmento de código de patente enumera 570 . ¿AUTOMÓVIL CLUB BRITÁNICO? ¿Estoy cometiendo un error? O....?
Me parece una ofuscación de datos de patentes, la secuencia real en la patente es 569 pero si observa los últimos 5 aminoácidos en la secuencia traducida, es PLGEE, mientras que en la secuencia de aminoácidos de la patente aparece un aspartato de la nada: PLDEE . Dos recomendaciones: 1) Empieza a organizar tus secuencias con algún programa, es más fácil compararlas visualmente 2) Trata las patentes con cautela, tienen que decir la verdad de lo contrario no serán válidas, pero no necesariamente dicen toda la verdad y podría estar oculto en lo profundo de la patente para confundir al lector.
¡Gracias por los consejos! ¿Alguna recomendación de un programa para organizar mis secuencias? ¿Que usas?
No creo que sea apropiado recomendar software comercial aquí, pero en Researchgate debería encontrar muchos consejos.