¿Cómo puedo reformatear las matrices de peso de posición de mis motivos de ADN?

Estoy trabajando con un conjunto de motivos de ADN que se predicen como posibles motivos reguladores (por ejemplo, sitios de unión de factores de transcripción). Los motivos pertenecen a varias especies, y quería agrupar estos motivos a través de sus Matrices de peso de posición (PWM) (también conocidas como PSSM) para colapsar motivos similares en grupos.

Hay una herramienta llamada MATLIGN ( sitio web aquí ) que hace lo que necesito, pero su formato requerido para los PWM es diferente al que tengo, afirman:

"Las matrices deben tener el formato de matriz de frecuencia (solo se aceptan números enteros)"

El problema es que mis matrices PWM no tienen números enteros sino decimales. p.ej:

     A        C        G        T
1    0.000000 1.000000 0.000000 0.000000
2    1.000000 0.000000 0.000000 0.000000
3    0.000000 0.000000 1.000000 0.000000
4    0.000000 0.421755 0.000000 0.578245
5    0.289407 0.000000 0.282556 0.428038

En otras palabras, en lugar de los valores decimales que tengo en mi matriz, necesito contar con números enteros. ¿Alguien podría sugerir qué puedo hacer? ¿Necesitaría crear "pseudoconteos" artificiales?

¿Podría ser tan simple que quieren recuentos de ocurrencias de nucleótidos (la frecuencia) en lugar de proporciones (por ejemplo, su fila 5 como (usando n = 60): 17 0 17 26)? ¿De dónde provienen sus números? Supongo que tiene conteos como datos sin procesar para calcular las proporciones. Eso sí, no tengo ninguna experiencia con estos métodos en particular.
Gracias @fileunderwater por tu comentario. El problema es que los datos sin procesar no están disponibles para mí, lo que tengo son los resultados de alto nivel que generó el programa. Supongo que este software requiere el conteo de enteros enteros ya que las proporciones permanecen constantes sin importar cuán grande sea el total.
ok, pues entonces tienes un problema, ya que no hay forma de saber el margen de error de las proporciones. Sin embargo, para obtener recuentos, estas proporciones solo deben multiplicarse por el número de sitios de unión incluidos en el estudio. ¿No tienes esa información (por ejemplo, el número de secuencias que se han analizado)?
¡brillante! ¡HAGO! ¡Deberías responder a eso! Gracias
¿Por qué no multiplicar todo por 10? El PWM seguirá siendo correcto ya que sus valores son relativos entre sí, solo se convierte 1.00en 10y 0.28en 28etc.
Hola, @terdon, estuve muy tentado de hacer eso antes de que surgiera la respuesta de fileunderwater. Resultó que tenía razón, eventualmente encontré en mi conjunto de datos que había una variable "misteriosa" llamada "nsites". Después de leer la letra pequeña de los documentos, nsites es el número por el que debería multiplicar, ya que es el número de regiones de ADN bajo las cuales se creó el motivo.
Sí, su solución es más limpia pero dudo que haya alguna diferencia. Recuerde que los PWM son relativos, por lo que multiplicar por cualquier cosa debería estar bien.
@terdon Como escribí, no estoy familiarizado con este programa/métodos, pero asumí que los conteos se usaron en el análisis para determinar qué confianza puede tener en las proporciones (es decir, más confianza en el 33% de 40/120 que 3/9). Pero es posible que tenga razón en que no hace una diferencia en este caso.
Tampoco estoy familiarizado con este programa, pero los PWM en general siempre son relativos. Lo que obtiene es un valor que indica con qué frecuencia se encuentra un residuo en particular en una posición dada. Multiplicar con un valor arbitrario no debería afectar el resultado de ninguna manera, siempre y cuando multipliques todos los valores. Básicamente, 1 significa que siempre tienes ese residuo en esa posición. Si multiplica por, digamos, 100, puede tratarlos como porcentajes. Pero sí, las implementaciones pueden variar dependiendo de a qué las estés alimentando.

Respuestas (1)

Entonces, lo que necesita son básicamente sus datos expresados ​​como conteos en lugar de proporciones. Incluso si no tiene la matriz de recuentos como datos sin procesar, estas proporciones solo deben multiplicarse por el número total de sitios de unión utilizados en el estudio (por ejemplo, el número de secuencias que se han analizado) para obtener los recuentos (ya que la proporción = recuento/número total de sitios de unión). Deberías tener esa información en alguna parte.

@hello_there_andy: de hecho, esta información faltante estaba disponible para mí, venía en forma de una variable llamada nsites que equivale a la cantidad total de sitios de ADN a partir de los cuales se generó el PWM.