Predicción de la estructura de proteínas a partir de la secuencia de aminoácidos.

La información proporcionada en este recurso https://predictioncenter.org/ es casi imposible de digerir (como con todo en este campo), por lo que si alguien pudiera decirme cuál es la precisión con la que podemos predecir la estructura de la proteína terciaria ahora, se lo agradecería. .

También me encantaría escuchar sus pensamientos sobre '¿por qué una célula puede hacer exactamente la misma estructura de proteína miles de veces usando las leyes físicas que conocemos, pero tenemos que adivinarlo usando el aprendizaje automático? ¿Por qué es difícil?

"usando leyes físicas que conocemos": ¿Quiere decir que conocemos las leyes de la física o que sabemos que las leyes de la termodinámica determinan que una proteína se pliega a la energía libre más baja posible, o que sabemos cómo una proteína en realidad progresa a su estado termodinámicamente favorecido? Si nos dice lo que cree que sabemos y lo que exactamente cree que es el "eso" que debemos adivinar, es posible que podamos explicar por qué "eso" es difícil. En la actualidad, su pregunta carece de la claridad necesaria para ayudarlo de manera efectiva.
@David, sí, tienes razón, tenía una imagen demasiado simple del proceso, después de estudiar más, entiendo por qué te opones.

Respuestas (3)

¿Cuál es la precisión con la que podemos predecir la estructura de la proteína terciaria?

Eso depende de la proteína. Si la secuencia primaria coincide estrechamente con la secuencia de una proteína cuya estructura ya está resuelta, entonces se pueden usar métodos basados ​​en plantillas para modelar la estructura 3D (también conocido como modelado por homología ). Estos métodos tienden a ser precisos, según lo evaluado por el puntaje de modelado de plantilla , aunque la confirmación de la estructura cristalina solo está disponible para una minoría de modelos (1%, según este documento de 2010 ).

Para las proteínas sin homólogos estructuralmente resueltos, a menudo se usa el plegamiento ab initio , que se basa en la evaluación de la mecánica molecular del plegamiento iterativo de la cadena peptídica para encontrar estructuras que minimicen la energía libre de Gibbs. El software popular para el modelado mecánico molecular de proteínas incluye CHARMM y AMBER . Los métodos ab initio son computacionalmente intensivos y más difíciles de validar.

'¿Por qué una célula puede hacer exactamente la misma estructura de proteína miles de veces usando leyes físicas que conocemos, pero tenemos que adivinarlo usando el aprendizaje automático? ¿Por qué es difícil?

Es difícil conocer todos los factores celulares presentes cuando se sintetiza una proteína en particular y cómo esos factores afectan el plegamiento de la proteína. ¿Cuál es la temperatura y el pH proximal al ribosoma? ¿ Están involucradas las proteínas chaperonas ? ¿Es la estructura de energía más baja la verdadera estructura, o la estructura nativa cae en un mínimo estable local con un potencial funcional seleccionado por la evolución? Una buena discusión de ese último punto se puede encontrar en Quora .

¡Gracias +1! Hay muchos buenos puntos para una mayor investigación en su respuesta: fuego:

Predictioncenter.org organiza un concurso abierto cada dos años: Evaluación crítica de la predicción de estructuras (CASP). CASP 14 ya está en marcha.

Los mejores programas para el plegamiento ab initio son dinámicas moleculares altamente aumentadas con aprendizaje automático y un montón de algoritmos predictivos agregados para crear una estructura. Mire el software Rosetta de David Baker . Más recientemente, DeepMind de Google venció a Rosetta y a un grupo de otros.

predictcenter.org/casp13/zscores_final.cgi

Deepmind es una red impulsada por creencias profundas https://deepmind.com/blog/article/AlphaFold-Using-AI-for-scientific-discovery

Entrenamos una red neuronal para predecir una distribución de distancias entre cada par de residuos en una proteína (visualizado en la Figura 2). Luego, estas probabilidades se combinaron en una puntuación que estima qué tan precisa es una estructura de proteína propuesta. También entrenamos una red neuronal separada que usa todas las distancias en conjunto para estimar qué tan cerca está la estructura propuesta de la respuesta correcta.

El problema del plegamiento de proteínas se conoce como la paradoja de Levinthal : una proteína típica de unos pocos cientos de aminoácidos puede plegarse en un número astronómicamente grande de configuraciones, todas ellas consistentes con las leyes de la física (p. ej., tener el mismo o casi el mismo energía). Sin embargo, la proteína real en una célula (casi) siempre se pliega en la misma estructura y todas las proteínas conocidas se pliegan en unas mil estructuras bien definidas (además, a veces las proteínas con poca similitud de secuencia adoptan exactamente la misma estructura).

Para aquellos que quieran saber más sobre la física detrás, una introducción bastante legible son las Conferencias de Huang sobre física estadística del plegamiento de proteínas , mientras que las otras respuestas en este hilo ya han brindado una revisión bastante buena de los métodos utilizados en la práctica: tenga en cuenta que estos no se basan necesariamente en el aprendizaje automático, como sugiere el OP, aunque el ML se ha utilizado para este propósito durante algunas décadas, por ejemplo, consulte este libro .