Elipsoide de mejor ajuste

Dada una colección de puntos PAG R 3 , una burda caracterización de la "forma" de PAG a veces viene dada por los componentes principales. Construimos una matriz de covarianza, por ejemplo, si PAG es discreto, C = pag PAG ( pag m ) ( pag m ) , dónde m = 1 | PAG | pag PAG pag es el centro de masa. Esto define un elipsoide cuyos semiejes están definidos por los vectores propios unitarios de C , escalada por los valores propios asociados.

Mi pregunta se refiere a la siguiente declaración:

El elipsoide descrito por las componentes principales es el elipsoide que mejor se ajusta a PAG .

Desafortunadamente, no conozco ningún autor o recurso al que pueda acusar de hacer tal afirmación explícitamente. . De todos modos, mi pregunta es:

¿Existe una definición geométrica natural de "elipsoide de mejor ajuste" para la cual la declaración anterior se vuelve verdadera?

Por ejemplo, lo que estoy buscando es algún tipo de mínimos cuadrados u otra caracterización variacional de este mismo elipsoide. También aceptaría una respuesta que me convenza de que esta es la forma incorrecta de ver los componentes principales, pero será difícil de vender.

Si hacemos una traslación de coordenadas, de modo que v pag = ( pag m ) , y deja v ^ pag = v pag v pag , y mira C como una transformación lineal que es la suma de los operadores de rango uno en este sistema de coordenadas, C = pag PAG v pag 2 v ^ pag v ^ pag , entonces el elipsoide en cuestión es la imagen de la bola unitaria. De esta caracterización gano algo de intuición de por qué este elipsoide en particular es bueno. Estoy buscando una mejor comprensión, preferiblemente desde una perspectiva geométrica.


* Wikipedia se acerca a tal afirmación en la descripción de los momentos : "El 'segundo momento', ... en dimensiones más altas mide la forma de una nube de puntos como podría encajar en un elipsoide".



Editar: aunque creo que la observación de que el elipsoide refleja la varianza de la distribución gaussiana que tiene la máxima probabilidad de producir PAG (No me he arremangado ni comprobado), este no es el tipo de respuesta que estoy buscando. Tal vez debería eliminar todas las etiquetas que se refieren a probabilidad o regresión.

Haré la pregunta muy específica entonces. Por cosas que he visto en otras partes de la web, tengo la sensación de que este elipsoide es diferente del que minimiza la suma de las distancias al cuadrado a los puntos, pero no estoy seguro.

¿Qué tal esto entonces: la distancia radial desde un punto pag al elipsoide es la distancia medida a lo largo de la línea que contiene pag y m (siendo este último el origen en nuestro nuevo sistema de coordenadas). Entonces que esta sea mi pregunta:

¿El elipsoide definido anteriormente minimiza la suma de las distancias radiales al cuadrado?

El enlace en la nota al pie se ve bien en la vista previa, pero no se representa correctamente en la publicación final.
No te preocupes, @yasmar.
Mi corazonada es que obtendría una interpretación natural de la construcción en cuestión si reemplaza "elipsoide" con "distribución normal multivariada", similar a la forma en que una distribución normal con la misma media y varianza es, en cierto sentido, la que mejor se ajusta distribución normal a una distribución dada. Desafortunadamente, no puedo desarrollar esto porque no sé con precisión cuál es ese sentido, aunque parece que debería ser fundamental y deslumbrantemente obvio.
@Raul Gracias. La probabilidad máxima sugerida por Yuval parece que probablemente sea correcta. No es el tipo de respuesta que estaba buscando, pero tal vez no haya una interpretación geométrica estándar. Estoy específicamente interesado en el elipsoide (la superficie). ¿El elipsoide que minimiza la suma de las distancias al cuadrado a los puntos es diferente a este?
Gran pregunta. Creo que respondiste tu propia pregunta. El método que propone es el que mejor se ajusta "por componentes principales".

Respuestas (3)

A partir del principio del método de "rotación de Jacobi" para obtener los componentes principales, está claro que algún elipsoide (basado en los datos) se define por la siguiente idea:

caso bidimensional:

  1. rotar la nube de puntos de datos de modo que la suma de las coordenadas x cuadradas ("ssq(x)") sea máxima

  2. la suma de las coordenadas y cuadradas ("ssq(y)") es entonces mínima.

caso multidimensional:

  1. haces 1) con todos los pares de ejes xy, xz, xw,... Esto da un máximo "temporal" de ssq(x)

  2. entonces haces 1) con todos los pares yz,yw,... para obtener un máximo "temporal" de ssq(y) y así sucesivamente con zw,....

  3. Luego repites todo el proceso hasta la convergencia.

En principio esto solo define la dirección de los ejes de algún elipsoide. Luego, por ejemplo en la monografía "Faktorenanalyse" ("análisis factorial") de K. Ueberla, el tamaño del elipsoide se define por: "la longitud de los ejes son las raíces de ssq(eje)" (parafraseado) Aquí no hay referencia directa se hace a la propiedad de desviación radial (cuando se representa en términos de coordenadas polares).

De hecho, el concepto de minimizar las distancias radiales es diferente por una simple consideración.
Si tenemos, por ejemplo, solo tres puntos de datos que están casi en una línea recta, entonces el centro del círculo de mejor ajuste tiende al infinito y no a la media. Lo mismo puede ocurrir con alguna nube de puntos de datos cuya forma general sea la de un segmento pequeño pero suficiente de una circunferencia de una elipse. Bueno, podemos forzar el origen en el centro aritmético de la nube, pero esto introduce una probable restricción artificial. En realidad, si busca "regresión circular", llegará a métodos iterativos no lineales muy diferentes del método de los componentes principales.

[actualización] Aquí muestro la diferencia entre los dos conceptos en un ejemplo bidimensional. Generé datos aleatorios ligeramente correlacionados. Girado a la posición pca, de modo que el eje x del gráfico sea el primer princ.comp. (vector propio) y así sucesivamente.

La elipse azul es esa elipse usando las longitudes de eje de stddev de los componentes principales.

Luego calculé otra elipse minimizando la suma de los cuadrados de las distancias radiales de los puntos de datos a la circunferencia de la elipse (solo verificación manual), esta es la elipse roja. Aquí está la trama:

ajuste de elipse

[finalizar actualización]


Un comentario más para la visualización geométrica (es solo para el caso bidimensional).

Considere la nube de datos como puntos finales de vectores desde el origen. Entonces el concepto común de la resultante es la media de la suma aritmética/geométrica de todos los vectores. Esto también se llama "centroide" y en los primeros tiempos del análisis factorial, sin la ayuda de computadoras, a menudo era una aproximación aceptada para la "tendencia central": la media de las coordenadas son las que mejor se ajustan en el sentido de menos " cuadrados de distancias".

Sin embargo, si algunos vectores tienen una dirección "opuesta" (¿mejor palabra?), su influencia se neutraliza, aunque definirían muy bien un eje. En el antiguo método del centroide, dichos vectores se "inflexionaban" (se cambiaba el signo) para corregir ese efecto.

Otra opción es duplicar el ángulo de cada vector ; luego, los vectores opuestos se superponen y fortalecen la influencia de los demás en lugar de neutralizarse. Luego toma la media de los nuevos vectores y la mitad de su ángulo. Este es entonces el componente/eje principal y, por lo tanto, representa otra estimación de mínimos cuadrados para el ajuste. (El cálculo del criterio de rotación concuerda perfectamente con la fórmula de minimización de la rotación de Jacobi para PCA)

Esto es excelente, gracias. No estoy familiarizado con la rotación de Jacobi o el análisis factorial, pero es genial conocer estas palabras clave. El contraejemplo de tres puntos está bien tomado.

Solo desarrollando el comentario de Rahul: probablemente esta elección de m y Σ maximiza la probabilidad de los puntos dada una distribución gaussiana multivariante norte ( m , Σ ) .

Gracias Yuval. Espero que tengas razón, pero no lo aceptaré hasta que esté seguro. Mientras tanto, todavía espero una respuesta más geométrica.

Respondiste tu propia pregunta: el mejor ajuste por componentes principales es un método de ajuste. Simplemente necesita confiar en este método y estudiar sus propiedades.

Por ejemplo: olvídate de los datos incompletos y mal muestreados. Suponga que hay muchos datos muestreados uniformemente [lo cual es cierto en muchas aplicaciones, como la elipstometría]. Si esos datos provienen de una elipse, entonces sus componentes principales son los mismos que los de la elipse de mejor ajuste. Si los datos no provienen de una elipse, las preguntas sobre la bondad del ajuste pierden cada vez más sentido, o dependen de la aplicación.