Matrices de puntuación (BLOSUM y PAM) en BLAST y otros programas de comparación de secuencias

Question

Matrices de puntuación (BLOSUM y PAM) en BLAST y otros programas de comparación de secuencias

explosión
Biología
bioinformática
modelo computacional

Vandana Naín

La página de Wikipedia en BLAST afirma que:

Las puntuaciones se crean comparando la palabra de la lista en el paso 2* con todas las palabras de 3 letras. Mediante el uso de la matriz de puntuación (matriz de sustitución) para puntuar la comparación de cada par de residuos, hay 20 ³ posibles puntuaciones de coincidencia para una palabra de 3 letras. Por ejemplo, la puntuación obtenida al comparar PQG con PEG y PQA es 15 y 12, respectivamente, con el esquema de ponderación BLOSUM62.

No entiendo cómo obtuvieron un puntaje de 15 para PQG v. PEG. ¿Qué es una matriz de puntuación, cómo se calcula y cómo se utiliza?

El paso 2 en esa página es Hacer una lista de palabras de k letras de la secuencia de consulta: "Tome k = 3 por ejemplo, enumeramos las palabras de longitud 3 en la secuencia de proteína de consulta (k suele ser 11 para una secuencia de ADN) secuencialmente, hasta incluir la última letra de la secuencia de consulta”.

Vance L Albaugh

Hola Vandana, gracias por tu pregunta. ¡Bienvenido a BiologySE! Es posible que desee agregar algunos enlaces a su pregunta para que todos puedan seguirla. Cuanto más descriptivo pueda ser con la pregunta, mejor será la respuesta que pueda obtener de la comunidad.

WYSIWYG

Esto no tiene nada que ver con BLAST per se . Lea sobre las matrices BLOSUM y PAM.

Respuestas (2)

Matrices de puntuación (BLOSUM y PAM) en BLAST y otros programas de comparación de secuencias

Hola Vandana, gracias por tu pregunta. ¡Bienvenido a BiologySE! Es posible que desee agregar algunos enlaces a su pregunta para que todos puedan seguirla. Cuanto más descriptivo pueda ser con la pregunta, mejor será la respuesta que pueda obtener de la comunidad.
Esto no tiene nada que ver con BLAST per se . Lea sobre las matrices BLOSUM y PAM.

terdón · Answer 1

Las dos familias más comunes de matrices de puntuación son BLOSUM y PAM. Cada uno de ellos tiene una puntuación para cada posible combinación de alineamiento entre los 20 aminoácidos estándar ¹ . Ambos hacen más o menos el mismo trabajo, pero se han derivado utilizando diferentes enfoques.

Matrices BLOSUM

_{(imagen tomada de Wikipedia )}

Las matrices BLOSUM se construyen a partir de alineaciones reales entre regiones muy conservadas de familias de proteínas. La puntuación para un par dado de aminoácidos que se alinean entre sí es la puntuación de probabilidades logarítmicas que mide con qué frecuencia se encuentra esta alineación particular y con qué frecuencia se esperaría que se encontrara por casualidad:

S_{i j} = (\frac{1}{λ}) (\frac{{pags}_{i j}}{q_{i} * q_{j}})

$S_{ij} = \left ( \frac{1}{\lambda} \right ) \left ( \frac{p_{ij}}{q_i * q_j} \right )$

Dónde $p_{ij}$ es la probabilidad de encontrar los dos aminoácidos $i$ y $j$ alineados entre sí en una secuencia homóloga y $q_i$ y $q_j$ la probabilidad de fondo de encontrar los aminoácidos $i$ y $j$ en cualquier secuencia proteica. los $\lambda$ es un conjunto de factores de escala para garantizar que la matriz contenga valores enteros fácilmente computables.

En palabras simples, las matrices BLOSUM le otorgan una puntuación basada en la frecuencia con la que la alineación que observa en sus secuencias se encuentra en alineaciones de secuencias similares.

Hay varias matrices BLOSUM que se han calculado utilizando proteínas de mayor o menor similitud de secuencia. El más utilizado es BLOSUM62, que se construyó utilizando alineaciones entre proteínas de $\ge 62\%$ identidad de secuencia Este es un buen término medio y servirá para la mayoría de los casos. Si está comparando proteínas que están muy relacionadas, es posible que desee utilizar una matriz basada en secuencias más similares, como BLOSUM90 (construida a partir de secuencias con $\ge 90\%$ identidad de secuencia de secuencia) y para proteínas menos conservadas, puede usar algo como BLOSUM45 ( $\ge45\%$ identidad de secuencia).

Matrices PAM

Las matrices PAM se construyen utilizando un enfoque diferente. En primer lugar, se calcula una alineación global (a diferencia de las locales utilizadas en BLOSUM) de un conjunto de secuencias que comparten un 85 % de identidad de secuencia. A continuación, se calcula una puntuación para la alineación de todos los posibles pares de aminoácidos en función de su frecuencia observada en las proteínas alineadas. Luego, las puntuaciones se extrapolan a alineaciones de diferente similitud de secuencia usando herramientas matemáticas. Las matrices PAM asumen un modelo de evolución de proteínas y puntúan las alineaciones en función de ese modelo.

La matriz PAM-I es la única que realmente se construyó a partir de alineaciones reales. El resto se obtuvo multiplicando PAM-I por sí mismo N veces. En PAM, a diferencia de BLOSUM, los números más altos corresponden a mayores distancias evolutivas entre proteínas.

Con todo eso en mente, BLAST utiliza las matrices de puntuación para calcular la puntuación de la alineación. Puede pensar en este puntaje como la suma de los puntajes de cada par individual de aminoácidos alineados en su resultado BLAST.

Referencias útiles:

¹_{Los aminoácidos no estándar selenocisteína y pirrolisina no están incluidos en ninguna matriz que yo conozca, probablemente porque son demasiado raros para sacar una conclusión razonable de los análisis estadísticos.}

David · Answer 2

Se utiliza una matriz de puntuación para calcular una puntuación para encontrar palabras idénticas de 3 letras o palabras similares de 3 letras que tenga en cuenta la probabilidad de que una esté relacionada con otra. Aunque estas matrices son empíricas, abarcan factores como el número de mutaciones requeridas (razón por la cual existen diferentes matrices para diferentes grados de divergencia), similitud química/funcional, rareza, etc. Esto produce una medida de relación más precisa que la alternativa ingenua de puntuar todas las coincidencias perfectas de la misma manera y no asignar puntuación a las discrepancias. Por lo tanto, permitirá una mejor elección de los pares de segmentos de alta puntuación (HSP), a los que se hace referencia en el artículo que cita.

Como mencionó @WYSIWYG, tales matrices se usan generalmente en programas que comparan secuencias, no solo BLAST, y hay dos matrices principales en uso: la matriz PAM y la matriz BLOSSUM , cada una bien documentada en línea.

Anexo: Matrices Blosum

En respuesta a una pregunta superpuesta que probablemente se marque como duplicada, hago dos comentarios adicionales con respecto a las matrices de Blosum.

Hay una descripción matemática más extensa de la derivación de las matrices de Blosum en un conjunto de diapositivas de la Universidad de Columbia . Sugiero que uno comience a leer desde la página que comienza con “Henikoff and Henikfoff (1991)”.
Las matrices BLOSUM-45, BLOSUM-62, etc. han sido cuidadosamente preparadas para conjuntos de secuencias con las características requeridas por el enfoque. Todo lo que hay que hacer es decidir cuál es la más apropiada para las secuencias que se comparan; por ejemplo, un número más alto será más apropiado para 'mamífero contra mamífero' que para 'mamífero contra bacteriano'. Sin embargo, en la alineación de secuencias múltiples (MSA) , a menudo se usa una matriz de puntuación dinámica específica de la posición : después de alinear cada secuencia, la matriz se vuelve a calcular para tener en cuenta el patrón de coincidencia real observado en cada posición. Véase, por ejemplo, este artículo de Panchenko y Bryant .

Matrices de puntuación (BLOSUM y PAM) en BLAST y otros programas de comparación de secuencias

Vandana Naín

Vance L Albaugh

WYSIWYG

Respuestas (2)

terdón

Matrices BLOSUM

Matrices PAM

David

¿Conceptos biológicos básicos explicados a un científico informático?

Número de copia BLAST local por acierto

Patrones espaciotemporales en redes neuronales

Explosión de bases de datos

¿Cómo se pueden verificar computacionalmente las predicciones informáticas del plegamiento de proteínas?

Términos GO para organismos no modelo

cuál es el mejor valor de corte de E en la búsqueda de homología de miARN

¿Múltiples transcritos que coinciden con el mismo gen en los datos de secuenciación de ARN ensamblados de novo, pero los valores de FPKM varían?

¿Cómo se encuentran los pre-miARN a partir de la salida de miARN maduro de Blast?

¿Por qué se toman diferentes longitudes de nucleótidos para la predicción de la estructura de un área de coincidencia de miARN después del análisis BLAST?