similitud entre matrices de frecuencia de posición

Necesito verificar la similitud entre un conjunto de matrices de frecuencia de posición (finalmente para ver si hay una diferencia significativa entre 2 grupos de 8 matrices).

A continuación se muestra un ejemplo simplificado de dos matrices (de hecho, tengo matrices de 250x3). Los valores son frecuencias relativas de las categorías 1..5 en cada columna, es decir, la suma de cada columna es igual a 1. Las columnas correspondientes en las matrices pueden variar en magnitud, como entre las columnas A2 y B2, o en distribución, como en A3 y B3. par de columnas. El par de columnas más diferente es A1 y B1.

    |   A1      A2      A3      |   B1      B2      B3
-------------------------------------------------------
1   |   0,00    0,20    0,20    |   1,00    0,15    0,00
2   |   0,00    0,50    0,50    |   0,00    0,60    0,10
3   |   0,00    0,20    0,20    |   0,00    0,15    0,20
4   |   0,00    0,10    0,10    |   0,00    0,10    0,50
5   |   1,00    0,00    0,00    |   0,00    0,00    0,20

¿Cuál sería la mejor medida de (des)similitud en este caso?

Algunas posibilidades que he encontrado:

Calcule la distancia euclidiana entre cada par de columnas y conviértala en similitud. (como en http://rsat.sb-roscoff.fr/help.compare-matrices.html#_dis_similarity_metrics )

¿El coeficiente de correlación de Pearson sería más adecuado para esto que la distancia euclidiana? (como en https://academic.oup.com/bioinformatics/article/21/3/307/237585 )

Mi pensamiento puede estar completamente equivocado, ya que mi conocimiento de esta área es muy limitado, por lo que cualquier sugerencia sería muy apreciada, incluso anulando por completo mi enfoque.

Hay una respuesta en Distancia/similitud entre dos matrices , pero es muy general, y espero que para la matriz de frecuencia de posición haya algo más específico.

----
Perdón por la publicación cruzada desde el foro de estadísticas ("Validación cruzada"), pero aparentemente este foro tiene más usuarios, y una pregunta similar sobre "Validación cruzada" no tiene respuesta durante mucho tiempo: https:// stats .stackexchange.com/questions/264183/ looking-for-measures-of-similarity-for-two-matrices-of-pairwise-similarities-d , así que redirigí mi esperanza aquí.

Respuestas (1)

Supongamos que le dan dos matrices ( A , B ) cuyas columnas son vectores unitarios en la norma L1.
Denotemos el k t h columna de A como a k = A mi k y del mismo modo para B .

Una medida simple de la similitud entre las columnas de estas dos matrices es

σ j k = a j T b k a j 1 b k 1 = a j T b k
Esto es análogo a la similitud del coseno, pero usando la norma L1 en lugar de la norma L2.