¿Predicción de la estructura de proteínas usando PSSM? ¿O no?

He estado estudiando algoritmos de predicción de estructuras de proteínas. Una gran cantidad de trabajos recientes utilizan algo llamado PSSM, la matriz de puntuación específica de la posición.

Creo que lo que hace un PSSM es construir una matriz 2-D de todos los pares de residuos posibles en una proteína, luego califica la probabilidad de que los dos residuos muten en tándem. La coevolución de dos posiciones que están lejos una de la otra en la secuencia primaria es una indicación de que están en contacto. Cuando cambia un residuo en un par de contacto, eso generalmente desestabiliza la proteína, y el otro residuo en el par está bajo presión selectiva para compensar. Saber esto le da un buen comienzo para construir el mapa de contactos de proteínas.

¿Tengo ese derecho?

Si eso es correcto, entonces esta técnica de predicción de la estructura de proteínas depende de tener muchos ejemplos de proteínas en una familia homóloga. Necesitas que la naturaleza haga muchos muestreos por ti. Y necesita extraer cantidades masivas de homólogos de proyectos de genómica. He leído que la creación de múltiples alineaciones de secuencias para el trabajo de PSSM es computacionalmente intensiva. Si entiendo el proceso correctamente, puedo ver por qué.

Mi pregunta principal es: ¿qué pueden hacer los modelos de predicción de la estructura de proteínas creados con PSSM, cuando no hay un PSSM?

Por ejemplo, la proteína Top7 es un pliegue de proteína completamente nuevo que no tiene ningún homólogo en la naturaleza. Fue creado en 2003 utilizando el software RosettaDesign. Los algoritmos de predicción de estructura de proteínas de Rosetta son anteriores a PSSM, hasta donde yo sé. Dieciséis años después, existen exactamente seis variantes de Top7, todas ellas fabricadas en laboratorio. Eso difícilmente suena como datos suficientes para un PSSM estadísticamente válido y, en cualquier caso, las variantes no se seleccionaron de forma natural.

Si no tiene un PSSM, ¿es posible ingresar su secuencia en un modelo que espera uno?

Gracias por tu contribución.

Respuestas (1)

Creo que está haciendo que los PSSM sean mucho más sofisticados de lo que realmente son.

Un PSSM es simplemente una matriz de puntaje: otorga puntajes específicos de posición para cada residuo en una ubicación determinada.

No hay un emparejamiento explícito de residuos que interactúan, aunque parece un enfoque interesante...

Puede obtener más información sobre los PSSM de muchas fuentes sobre bioinformática, incluido el NCBI .

Gracias por tu rápida respuesta, guapísima. Si el PSSM es una matriz N x 20, tiene razón, realmente no puede hacer lo que pensé que hace. Entonces, ¿el PSSM es distinto de los "métodos coevolutivos" sobre los que estoy leyendo en esta publicación reciente en AlphaFold de Google? ( moalquraishi.wordpress.com/2018/12/09/… ) No tengo suficientes caracteres para publicar una cita relevante del artículo en este comentario, así que continuaré en otro.
Cita de ( moalquraishi.wordpress.com/2018/12/09/… ): "CASP11 comenzó a mostrar vida debido a la introducción de métodos coevolutivos, pero apenas porque la mayoría de los objetivos de FM tenían alineaciones de secuencia múltiple (MSA) poco profundas, que se requieren para los métodos coevolutivos. CASP12 fue cuando finalmente se demostró el poder de estos métodos, y CASP13, incluso cuando excluyó AlphaFold, mostró un mayor progreso debido a la adopción generalizada del aprendizaje profundo en los métodos coevolutivos".