Estoy trabajando con un conjunto de motivos de ADN que se predicen como posibles motivos reguladores (por ejemplo, sitios de unión de factores de transcripción). Los motivos pertenecen a varias especies, y quería agrupar estos motivos a través de sus Matrices de peso de posición (PWM) (también conocidas como PSSM) para colapsar motivos similares en grupos.
Hay una herramienta llamada MATLIGN ( sitio web aquí ) que hace lo que necesito, pero su formato requerido para los PWM es diferente al que tengo, afirman:
"Las matrices deben tener el formato de matriz de frecuencia (solo se aceptan números enteros)"
El problema es que mis matrices PWM no tienen números enteros sino decimales. p.ej:
A C G T
1 0.000000 1.000000 0.000000 0.000000
2 1.000000 0.000000 0.000000 0.000000
3 0.000000 0.000000 1.000000 0.000000
4 0.000000 0.421755 0.000000 0.578245
5 0.289407 0.000000 0.282556 0.428038
En otras palabras, en lugar de los valores decimales que tengo en mi matriz, necesito contar con números enteros. ¿Alguien podría sugerir qué puedo hacer? ¿Necesitaría crear "pseudoconteos" artificiales?
Entonces, lo que necesita son básicamente sus datos expresados como conteos en lugar de proporciones. Incluso si no tiene la matriz de recuentos como datos sin procesar, estas proporciones solo deben multiplicarse por el número total de sitios de unión utilizados en el estudio (por ejemplo, el número de secuencias que se han analizado) para obtener los recuentos (ya que la proporción = recuento/número total de sitios de unión). Deberías tener esa información en alguna parte.
@hello_there_andy: de hecho, esta información faltante estaba disponible para mí, venía en forma de una variable llamada nsites que equivale a la cantidad total de sitios de ADN a partir de los cuales se generó el PWM.
archivobajo el agua
hola_ahí_andy
archivobajo el agua
hola_ahí_andy
terdón
1.00
en10
y0.28
en28
etc.hola_ahí_andy
terdón
archivobajo el agua
terdón