Cada secuencia de ADN (ARN) tiene 6 posibles marcos abiertos de lectura (ORF). Mi pregunta es: ¿Cuáles son las bases teóricas de los intentos in vitro o in silico para encontrar el marco de lectura correcto de una secuencia?
¿Es solo la distancia entre los codones de inicio y fin, o hay otros factores con impactos más importantes en este tema?
TransDecoder es un programa de uso común para extraer regiones de codificación probables de ensamblajes de transcriptomas, que hace lo siguiente para realizar una llamada:
TransDecoder identifica las secuencias de codificación probables según los siguientes criterios:
- se encuentra un marco de lectura abierto (ORF) de longitud mínima en una secuencia de transcripción
- una puntuación de probabilidad logarítmica similar a la calculada por el software GeneID es > 0.
- la puntuación de codificación anterior es mayor cuando el ORF se puntúa en el primer marco de lectura en comparación con las puntuaciones en los otros 5 marcos de lectura.
- si se encuentra un ORF candidato completamente encapsulado por las coordenadas de otro ORF candidato, se informa el más largo. Sin embargo, una sola transcripción puede informar múltiples ORF (permitiendo operones, quimeras, etc.).
- opcional, el péptido putativo tiene una coincidencia con un dominio Pfam por encima de la puntuación de corte de ruido.
Entonces, en esencia, busque el ORF más largo y luego use alguna métrica secundaria (modelo de Markov oculto, matriz de peso de posición, consulta de base de datos, etc.) para refinar su predicción.
Una cara
canadiense
resonante
Mi cielo