Cuestión de prueba de máximos relacionada con la forma cuadrática

Suponer A es una matriz definida positiva simétrica y ahora queremos maximizar la función F ( X ) = X T A X con restricción X T X = 1 . Usando el multiplicador de Lagrange tenemos L ( X ) = X T A X λ ( X T X 1 ) y tomando la derivada de ambos lados obtenemos L ( X ) = ( A λ I ) X = 0 , cuyas soluciones son vectores propios de A .

Mi pregunta es cómo demostrar que las soluciones (los vectores propios) son de hecho máximos de F ( X ) en lugar de mínimos. No estoy seguro, pero creo que esto está relacionado con la matriz hessiana y encontré aquí matriz hessiana de forma cuadrática que la matriz hessiana de forma cuadrática parece ser A + A T , pero no sé cómo usarlo con una restricción. Publico esta pregunta para pedir ayuda con una prueba completa. Gracias.


PS El trasfondo de esta pregunta es el modelo estadístico ampliamente utilizado Análisis de Componentes Principales. Una pregunta relacionada es ¿Por qué los componentes principales corresponden a los valores propios? si estás interesado.

Respuestas (1)

Primero, si A no es simétrica, entonces no se puede decir que L ( X ) = ( A λ I ) X , todo lo que puedes deducir es que L ( X ) = ( A + A T 2 λ I ) X . llamemos A = A + A T 2 .

Tenemos necesariamente en máximos/mínimos la condición de que λ i es el valor propio de A y el correspondiente X i es el vector propio de A . vamos a suponer que λ 1 λ 2 .

Entonces otra vez, A es una matriz simétrica, por lo que todos sus valores propios son reales y sus vectores propios forman una base ortonormal.

Finalmente, escribimos cualquier vector y con y = 1 como

y = i a i X i .
las constantes a i satisfacer i a i 2 = 1 y luego echar un vistazo a y T A y , obtenemos
y T A y = i λ i a i 2
sujeto a restricciones i a i 2 = 1 . Este es un problema de optimización fácil con el máximo alcanzado cuando a 1 = ± 1 .

Gracias por la respuesta. A es una matriz simétrica.
Estoy un poco confundido. Por qué y T A y = i λ i a i 2 ?
@Tony y = i a i X i , por eso A y = i λ i a i X i porque X i son vectores propios. Entonces otra vez, X i son una base ortonormal, por lo tanto y T A y = ( j a j X j , i λ i a i X i ) = i λ i a i 2 .
Gracias. Tengo otra pregunta. ¿Cuál es el propósito de este paso? y = i a i X i ?
@Tony para simplificar el problema de maximización.
No estoy seguro, pero creo que la solución se está mostrando. F ( X ) aumenta con los valores propios y sus vectores propios correspondientes, pero no prueba que sean máximos.