Secuencia de puntuación frente a la matriz de peso de posición

Tengo una matriz de pesos de longitud 20 x 15 (aminoácidos x posiciones de secuencia). Cada elemento de mi matriz de peso es una probabilidad relativa

Si tengo una secuencia que dice "AAPGTGASMHSGLLW", ¿cómo la puntuo contra la matriz? Intenté sacar el producto de probabilidades correspondiente a la matriz, pero termino con un número muy pequeño

¿Algunas ideas?

Editar:

Considere la matriz simple:

    1    2   3     4
A 0.3 0.90 0.5 0.0001
B 0.2 0.05 0.4 0.2
C 0.5 0.05 0.1 0.8

El mejor partido es, con una puntuación de:

CAAC = 0.5 * 0.9 * 0.5 * 0.8 = 0.18

Si cambia la primera letra a una B en lugar de C

obtienes una coincidencia, con una puntuación de:

BAAC = 0.2 * 0.9 * 0.5 * 0.8 = 0.072

Lo cual es una gran diferencia para un cambio tan pequeño... Esto es aún peor con mi matriz más grande ya que la puntuación se ve fácilmente afectada por pequeñas probabilidades

¿Tal vez tu secuencia es una mala coincidencia?
Edité mi pregunta con un ejemplo. Ver arriba ^

Respuestas (2)

Las probabilidades son correctas. Debe tomar el producto (en el espacio de registro esto es equivalente a la suma). La razón por la que la probabilidad parece pequeña es que quizás esté pensando que la puntuación debería estar cerca de 1. Sin embargo, este no es el caso. Para obtener una puntuación de 1, necesita que el PWM tenga 1/0/0/0 en todas las posiciones y obtenga una combinación perfecta.

Entonces, ¿con qué deberías compararte? Lo que la gente suele hacer es comparar esto con una distribución de fondo, siendo la más fácil uniforme, por lo que el PWM es 0,25 en todas partes. Para su ejemplo, la puntuación en este caso será 0,25^4 = ~0,004 y esto es lo que debe esperar al azar.

Esta es la razón por la cual las personas generalmente observan la relación entre la puntuación del PWM en relación con la puntuación del modelo de fondo (y generalmente toman el log2 de eso), que en su caso será 0.18/0.004 = ~46, por lo que la secuencia que obtuvo ¡es 46 veces más de lo que esperarías al azar! Y para su segundo ejemplo, 0,072/0,004 = ~18 veces más de lo esperado, por lo que sigue siendo alto.

Más conceptualmente, lo que está haciendo es comparar dos modelos probabilísticos, su PWM y un PWM de fondo, y comparar la probabilidad de obtener su secuencia observada de acuerdo con cada uno de ellos. Este es un enfoque común en general para comparar modelos probabilísticos, incluso si son más complicados.

¡Gracias por esa respuesta detallada! Estoy tratando de obtener una puntuación entre 0 y 1 (es decir, una probabilidad). Pensé en tomar la relación entre la puntuación y la mejor coincidencia con el PWM. Supongo que por lo que acabas de explicar, tendría que dividir por 0,004 para obtener la puntuación de la secuencia y la mejor puntuación. Entonces, ¿usando el puntaje de BAAC: (0.072/0.004)/(0.18/0.004)? ¿Funcionaría esto?
Además, si tengo probabilidades de fondo de la vida real (es decir, determinadas a partir de una gran base de datos), ¿simplemente tomaría el producto de todo?
@Omar con respecto a la normalización del puntaje entre 0 y 1, puede normalizar el puntaje de la manera que sugirió (tenga en cuenta que la probabilidad del modelo de fondo se cancela, por lo que no lo necesita). Entonces, la interpretación será diferente, ya que no le dirá nada sobre la probabilidad de encontrar su secuencia al azar. Así que supongo que depende de para qué quieras usar las puntuaciones. Tenga en cuenta que siempre que divida todas sus secuencias por una puntuación constante, ya sea de fondo o la probabilidad más alta, se mantendrán las proporciones entre las puntuaciones de diferentes secuencias.
@Omar con respecto a los modelos de fondo, si no está usando un fondo uniforme y está haciendo predicciones sobre un organismo determinado, tendría sentido calcular el porcentaje A/C/G/T de todo el genoma y usarlo como modelo de fondo , es decir, PWM con la misma longitud que su PWM de interés, solo que todas las posiciones tienen las mismas probabilidades genómicas.
Gracias. Estoy usando secuencias de aminoácidos, así que supongo que el modelo de fondo sería (1/20) ^ 15 entonces. Me encuentro con el problema al dividir el producto de mi puntuación por el producto de la mejor puntuación ya que ambos son números muy pequeños: por ejemplo 10^-19 / 10^-12 = 10^-7, que efectivamente está entre 0 y 1 pero no me da una idea de cuán similar es a la mejor. Lo que busco calificar es qué tan bien un péptido coincide con un PWM (que va de 0 a 1). ¿Esto tiene sentido? Agradezco la ayuda
@Omar, dado que los números son muy pequeños, puede trabajar con sus registros (por supuesto, entonces debe cambiar la división a la resta). Aparte de eso, todavía no veo por qué crees que los números "no tienen sentido". Como expliqué, 10^-19 puede ser alto o bajo, dependiendo de con qué se esté comparando.
Bueno, veo cómo los números tienen sentido ahora. Pero mi problema es más bien llevar mis números a una escala de 0-1 para poder aplicar un límite en mente (¿quizás 0.8?) para filtrar los péptidos por los que se unen mejor en comparación con la mejor coincidencia. Veo cómo 10^-19 / 10^-12 me daría un número entre 0 y 1. Si log2(10^-19 / 10^-12) obtendría -23. Lo que esencialmente significa que hay 23 veces menos posibilidades de que ocurra mi secuencia en comparación con la mejor. Pero mi problema es mapear ese valor de nuevo a una probabilidad 0-1

Según [esta página][1], debe tomar la suma y no el producto:

Una vez que se ha derivado un perfil de un conjunto de sitios funcionalmente relacionados, el perfil se puede usar para escanear una secuencia de consulta para detectar la presencia de sitios potenciales. Por lo general, ejecuta una ventana de la longitud de la matriz a lo largo de la secuencia y suma los coeficientes de la matriz correspondientes a cada nucleótido en cada posición en la secuencia de la ventana. Formalmente, la puntuación de una matriz M para un sitio s de longitud l (s = s1, ..., sl y sk siendo uno de {A, C, G, T}) se calcula como

metro s = j = 1 yo METRO s yo j

Le recomiendo que lea el resto de la página, el autor, Roderic Guigó, es una autoridad en el tema.

Está asumiendo por Msij que se refiere al registro (frecuencia/fondo.frecuencia). No tengo la matriz de frecuencia. Solo las probabilidades.
No debería marcar la diferencia, la puntuación de la secuencia debería seguir siendo la suma de las puntuaciones en cada posición.
@terdon en realidad hace una diferencia, en probabilidades es un producto pero en el espacio de registro es matemáticamente equivalente a la suma...
@Bitwise, todo lo que digo es que la suma aún es suficiente para anotar el partido. Por supuesto, dicha suma no será una probabilidad, pero se maximizará en la región de mayor similitud de secuencia. En cualquier caso, su respuesta es mucho mejor y claramente tiene más conocimientos sobre el tema que yo, por lo que no discutiré el punto.
@terdon no discute, solo es importante corregir para que la información sea clara. Considere un PWM que en la primera posición tiene A con probabilidad 1 y en la segunda posición C con probabilidad 1. La secuencia AA tiene una probabilidad de cero para vincular esta secuencia (1*0), pero la suma le dará 1, que es la mitad de la puntuación máxima y, por tanto, claramente errónea. PWM es un modelo probabilístico de la afinidad de unión, por lo que debe manipularse como probabilidades.