Tengo una matriz de pesos de longitud 20 x 15 (aminoácidos x posiciones de secuencia). Cada elemento de mi matriz de peso es una probabilidad relativa
Si tengo una secuencia que dice "AAPGTGASMHSGLLW", ¿cómo la puntuo contra la matriz? Intenté sacar el producto de probabilidades correspondiente a la matriz, pero termino con un número muy pequeño
¿Algunas ideas?
Editar:
Considere la matriz simple:
1 2 3 4
A 0.3 0.90 0.5 0.0001
B 0.2 0.05 0.4 0.2
C 0.5 0.05 0.1 0.8
El mejor partido es, con una puntuación de:
CAAC = 0.5 * 0.9 * 0.5 * 0.8 = 0.18
Si cambia la primera letra a una B en lugar de C
obtienes una coincidencia, con una puntuación de:
BAAC = 0.2 * 0.9 * 0.5 * 0.8 = 0.072
Lo cual es una gran diferencia para un cambio tan pequeño... Esto es aún peor con mi matriz más grande ya que la puntuación se ve fácilmente afectada por pequeñas probabilidades
Las probabilidades son correctas. Debe tomar el producto (en el espacio de registro esto es equivalente a la suma). La razón por la que la probabilidad parece pequeña es que quizás esté pensando que la puntuación debería estar cerca de 1. Sin embargo, este no es el caso. Para obtener una puntuación de 1, necesita que el PWM tenga 1/0/0/0 en todas las posiciones y obtenga una combinación perfecta.
Entonces, ¿con qué deberías compararte? Lo que la gente suele hacer es comparar esto con una distribución de fondo, siendo la más fácil uniforme, por lo que el PWM es 0,25 en todas partes. Para su ejemplo, la puntuación en este caso será 0,25^4 = ~0,004 y esto es lo que debe esperar al azar.
Esta es la razón por la cual las personas generalmente observan la relación entre la puntuación del PWM en relación con la puntuación del modelo de fondo (y generalmente toman el log2 de eso), que en su caso será 0.18/0.004 = ~46, por lo que la secuencia que obtuvo ¡es 46 veces más de lo que esperarías al azar! Y para su segundo ejemplo, 0,072/0,004 = ~18 veces más de lo esperado, por lo que sigue siendo alto.
Más conceptualmente, lo que está haciendo es comparar dos modelos probabilísticos, su PWM y un PWM de fondo, y comparar la probabilidad de obtener su secuencia observada de acuerdo con cada uno de ellos. Este es un enfoque común en general para comparar modelos probabilísticos, incluso si son más complicados.
Según [esta página][1], debe tomar la suma y no el producto:
Una vez que se ha derivado un perfil de un conjunto de sitios funcionalmente relacionados, el perfil se puede usar para escanear una secuencia de consulta para detectar la presencia de sitios potenciales. Por lo general, ejecuta una ventana de la longitud de la matriz a lo largo de la secuencia y suma los coeficientes de la matriz correspondientes a cada nucleótido en cada posición en la secuencia de la ventana. Formalmente, la puntuación de una matriz M para un sitio s de longitud l (s = s1, ..., sl y sk siendo uno de {A, C, G, T}) se calcula como
Le recomiendo que lea el resto de la página, el autor, Roderic Guigó, es una autoridad en el tema.
terdón
Omar Waguih