¿Por qué los modelos de Markov de quinto orden son los más utilizados para la predicción de genes?

Por lo que sabemos, la longitud de la cadena polipeptídica más pequeña es de 60 aminoácidos, por lo que si encontramos un marco de lectura abierto (ORF) de aproximadamente 60 codones sin la interrupción del codón de parada, podemos considerarlo como una posible región o gen codificante.

El modelo de Markov de quinto orden utiliza la frecuencia hexamérica para predecir las regiones de codificación, sin embargo, esto no parece muy específico.

¿Por qué no usaríamos modelos de Markov de orden superior con frecuencias más altas y más especificidad? ¿Aumentar el orden de los modelos de Markov no evitaría resultados falsos positivos?

De hecho, no sabemos que "la longitud de cadena polipeptídica más pequeña es de 60 aminoácidos". Ese es un límite puramente artificial, no biológicamente significativo. Sin duda, hay muchísimos polipéptidos funcionales que son mucho más pequeños pero que no se han anotado correctamente.
También debe recordar que los genes eucariotas de orden superior se interrumpen. Si los exones en el gen que está buscando tienen menos de 180 nucleótidos, entonces se lo perderá. también debe tener en cuenta los sitios aceptores y donantes de empalme, formas de empalme alternativas, codones para metionina que no indican el inicio del marco de lectura, etc. Piénselo de esta manera; al aumentar la rigurosidad, está arrojando más información. La mayor parte de esa información es mala, pero no toda, lo que significa que estás creando la situación en la que extrañas las cosas que deseas.
1. ¿Por qué está tan seguro de que la gente se apega a las cadenas Marcov de 5 órdenes? 2. Esto se reduce a entrenar la matriz de transición de estado, es decir, aumentar el orden conduce a aumentar exponencialmente el número de k-mers posibles, por lo tanto, en algún momento su muestra se vuelve insuficiente para estimar las tasas de transición con suficiente confianza, y mucho menos la complejidad computacional.

Respuestas (1)

El problema con los HMM cada vez más complejos es que su espacio de parámetros tiende a explotar con el orden n de los HMM. Una mayor cantidad de parámetros a menudo no es excelente porque reduce la posible cantidad de observaciones que se utilizan para entrenar cada parámetro y puede aumentar el sobreajuste del modelo.

A partir de la información que proporciona, es posible que el modelo de quinto orden alcance el punto óptimo de tener un gran rendimiento con un espacio de parámetros razonablemente contenido.

No está claro cómo funciona también su modelo.

¿Cada estado es un solo nucleótido o un solo KMER?

¿Es un HMM generalizado con estados separados para exones e intrones con los KMER como observaciones?

El trabajo del laboratorio de Bier ha demostrado que los 5-mers son muy buenos para diferenciar los potenciadores del fondo utilizando un modelo SVM para la clasificación. En su contexto, parece bastante razonable usar 6-mers para encontrar genes dado este hallazgo.

Para obtener más detalles, consulte "Análisis de secuencia biológica" de Sean Eddy y el trabajo del Dr. Michael Brent en la Universidad de Washington en Saint Louis (su laboratorio ha investigado mucho sobre los HMM para encontrar genes).

Sería útil tener una o pocas referencias en papel detrás de su pregunta.