¿Cómo se calcula la probabilidad de que ocurra una secuencia con BLAST?

¿Cuál es la probabilidad de que una determinada secuencia de nucleótidos/aminoácidos aparezca en toda la base de datos en la que busca BLAST? ¿Cómo se calcula esta probabilidad?

Respuestas (1)

De acuerdo con las estadísticas de documentación de BLAST de alineación de secuencias locales, al realizar búsquedas en bases de datos, se realiza

al tratar la base de datos como una sola secuencia larga de longitud N.

Por lo tanto, N es una suma de todas las secuencias con diferentes tamaños de una base de datos determinada.

La suposición subyacente es que

a priori es más probable que la consulta esté relacionada con una secuencia larga que con una corta, porque las secuencias largas a menudo se componen de múltiples dominios distintos.

Para calcular la probabilidad, debemos elegir un esquema de puntuación (para un ejemplo sin brechas: elegir penalizaciones por desajuste), que para una secuencia de consulta nos da una puntuación estadísticamente significativa S . Número esperado de alineaciones con una puntuación de al menos S sigue la distribución de valores extremos de Gumbel:

mi = k metro norte mi λ S

donde m es la longitud de la consulta, norte = norte y k y λ son parámetros de distribución.

Nuevamente, de acuerdo con los documentos y sus referencias, la probabilidad de encontrar al menos una de esas secuencias sería PAG = 1 mi mi ( norte ) , dónde mi ( norte ) es el número E para la secuencia N concatenada y la secuencia de consulta.