Dada una colección de puntos , una burda caracterización de la "forma" de a veces viene dada por los componentes principales. Construimos una matriz de covarianza, por ejemplo, si es discreto, , dónde es el centro de masa. Esto define un elipsoide cuyos semiejes están definidos por los vectores propios unitarios de , escalada por los valores propios asociados.
Mi pregunta se refiere a la siguiente declaración:
El elipsoide descrito por las componentes principales es el elipsoide que mejor se ajusta a .
Desafortunadamente, no conozco ningún autor o recurso al que pueda acusar de hacer tal afirmación explícitamente. . De todos modos, mi pregunta es:
¿Existe una definición geométrica natural de "elipsoide de mejor ajuste" para la cual la declaración anterior se vuelve verdadera?
Por ejemplo, lo que estoy buscando es algún tipo de mínimos cuadrados u otra caracterización variacional de este mismo elipsoide. También aceptaría una respuesta que me convenza de que esta es la forma incorrecta de ver los componentes principales, pero será difícil de vender.
Si hacemos una traslación de coordenadas, de modo que , y deja , y mira como una transformación lineal que es la suma de los operadores de rango uno en este sistema de coordenadas, , entonces el elipsoide en cuestión es la imagen de la bola unitaria. De esta caracterización gano algo de intuición de por qué este elipsoide en particular es bueno. Estoy buscando una mejor comprensión, preferiblemente desde una perspectiva geométrica.
* Wikipedia se acerca a tal afirmación en la descripción de los momentos : "El 'segundo momento', ... en dimensiones más altas mide la forma de una nube de puntos como podría encajar en un elipsoide".
Editar: aunque creo que la observación de que el elipsoide refleja la varianza de la distribución gaussiana que tiene la máxima probabilidad de producir (No me he arremangado ni comprobado), este no es el tipo de respuesta que estoy buscando. Tal vez debería eliminar todas las etiquetas que se refieren a probabilidad o regresión.
Haré la pregunta muy específica entonces. Por cosas que he visto en otras partes de la web, tengo la sensación de que este elipsoide es diferente del que minimiza la suma de las distancias al cuadrado a los puntos, pero no estoy seguro.
¿Qué tal esto entonces: la distancia radial desde un punto al elipsoide es la distancia medida a lo largo de la línea que contiene y (siendo este último el origen en nuestro nuevo sistema de coordenadas). Entonces que esta sea mi pregunta:
¿El elipsoide definido anteriormente minimiza la suma de las distancias radiales al cuadrado?
A partir del principio del método de "rotación de Jacobi" para obtener los componentes principales, está claro que algún elipsoide (basado en los datos) se define por la siguiente idea:
caso bidimensional:
rotar la nube de puntos de datos de modo que la suma de las coordenadas x cuadradas ("ssq(x)") sea máxima
la suma de las coordenadas y cuadradas ("ssq(y)") es entonces mínima.
caso multidimensional:
haces 1) con todos los pares de ejes xy, xz, xw,... Esto da un máximo "temporal" de ssq(x)
entonces haces 1) con todos los pares yz,yw,... para obtener un máximo "temporal" de ssq(y) y así sucesivamente con zw,....
Luego repites todo el proceso hasta la convergencia.
En principio esto solo define la dirección de los ejes de algún elipsoide. Luego, por ejemplo en la monografía "Faktorenanalyse" ("análisis factorial") de K. Ueberla, el tamaño del elipsoide se define por: "la longitud de los ejes son las raíces de ssq(eje)" (parafraseado) Aquí no hay referencia directa se hace a la propiedad de desviación radial (cuando se representa en términos de coordenadas polares).
De hecho, el concepto de minimizar las distancias radiales es diferente por una simple consideración.
Si tenemos, por ejemplo, solo tres puntos de datos que están casi en una línea recta, entonces el centro del círculo de mejor ajuste tiende al infinito y no a la media. Lo mismo puede ocurrir con alguna nube de puntos de datos cuya forma general sea la de un segmento pequeño pero suficiente de una circunferencia de una elipse. Bueno, podemos forzar el origen en el centro aritmético de la nube, pero esto introduce una probable restricción artificial. En realidad, si busca "regresión circular", llegará a métodos iterativos no lineales muy diferentes del método de los componentes principales.
[actualización] Aquí muestro la diferencia entre los dos conceptos en un ejemplo bidimensional. Generé datos aleatorios ligeramente correlacionados. Girado a la posición pca, de modo que el eje x del gráfico sea el primer princ.comp. (vector propio) y así sucesivamente.
La elipse azul es esa elipse usando las longitudes de eje de stddev de los componentes principales.
Luego calculé otra elipse minimizando la suma de los cuadrados de las distancias radiales de los puntos de datos a la circunferencia de la elipse (solo verificación manual), esta es la elipse roja. Aquí está la trama:
[finalizar actualización]
Un comentario más para la visualización geométrica (es solo para el caso bidimensional).
Considere la nube de datos como puntos finales de vectores desde el origen. Entonces el concepto común de la resultante es la media de la suma aritmética/geométrica de todos los vectores. Esto también se llama "centroide" y en los primeros tiempos del análisis factorial, sin la ayuda de computadoras, a menudo era una aproximación aceptada para la "tendencia central": la media de las coordenadas son las que mejor se ajustan en el sentido de menos " cuadrados de distancias".
Sin embargo, si algunos vectores tienen una dirección "opuesta" (¿mejor palabra?), su influencia se neutraliza, aunque definirían muy bien un eje. En el antiguo método del centroide, dichos vectores se "inflexionaban" (se cambiaba el signo) para corregir ese efecto.
Otra opción es duplicar el ángulo de cada vector ; luego, los vectores opuestos se superponen y fortalecen la influencia de los demás en lugar de neutralizarse. Luego toma la media de los nuevos vectores y la mitad de su ángulo. Este es entonces el componente/eje principal y, por lo tanto, representa otra estimación de mínimos cuadrados para el ajuste. (El cálculo del criterio de rotación concuerda perfectamente con la fórmula de minimización de la rotación de Jacobi para PCA)
Solo desarrollando el comentario de Rahul: probablemente esta elección de y maximiza la probabilidad de los puntos dada una distribución gaussiana multivariante .
Respondiste tu propia pregunta: el mejor ajuste por componentes principales es un método de ajuste. Simplemente necesita confiar en este método y estudiar sus propiedades.
Por ejemplo: olvídate de los datos incompletos y mal muestreados. Suponga que hay muchos datos muestreados uniformemente [lo cual es cierto en muchas aplicaciones, como la elipstometría]. Si esos datos provienen de una elipse, entonces sus componentes principales son los mismos que los de la elipse de mejor ajuste. Si los datos no provienen de una elipse, las preguntas sobre la bondad del ajuste pierden cada vez más sentido, o dependen de la aplicación.
yasmar
JM no es matemático
usuario856
yasmar
usuario67726