Segunda derivada de la norma nuclear

La norma nuclear se define de la siguiente manera

X := tr ( X T X )

y, de Derivado de la norma nuclear con respecto a su argumentación ,

d d X X = tu Σ 1 Σ V T

¿ Cuál es la segunda derivada de la norma nuclear?

d 2 d X 2 X = ?

Lo necesito para calcular el método de Newton para mi algoritmo y no he tenido mucho éxito. Cualquier ayuda sería muy apreciada. ¡Gracias de antemano!

Tenga en cuenta que está calculando la derivada de una función matricial con respecto a una matriz, por lo que la forma de su derivada definitivamente será un poco extraña. En particular, si tomamos la derivada de Frechet , la salida de la segunda derivada debería ser una transformación lineal de matrices a matrices. Interpretar d 2 d X 2 de la misma manera que lo hiciste con d d X , necesitarías una función que produzca rango 4 tensores.
Es mejor que te olvides de Newton y utilices un método basado en gradientes como Polak-Ribiere o Barzilai-Borwein.

Respuestas (2)

La razón por la que no ha tenido éxito es que la norma nuclear no es diferenciable. Tu respuesta para la derivada es solo parcialmente correcta. Si estás en el cono definido positivo, tu respuesta es correcta y se reduce a la matriz identidad. I , pero si la matriz X es de rango bajo, entonces la función no es diferenciable y lo mejor que puede hacer es calcular el subdiferencial

X = { tu V + W : tu T W = W V = 0 , W 2 } ,
dónde W 2 = máximo mi i gramo ( W ) es la norma espectral que es el valor propio máximo de W.

Dado que la norma nuclear es una norma y todas las normas son convexas, podemos hablar de la subdiferencial, que es el conjunto de todas las tangentes que se encuentran debajo de la función. La prueba del resultado anterior se puede encontrar en este documento:

Watson, GA Caracterización del subdiferencial de algunas normas matriciales. Álgebra lineal y sus aplicaciones, 170:33–45, 1992.

De la expresión anterior puedes ver que la norma nuclear es lineal por partes en cada uno de los conos. Por lo tanto, la segunda derivada sería cero en cada una de las piezas diferenciables. Eso debería explicar por qué el algoritmo de Newton no funciona tan bien (en realidad, depende de qué más haya en su función objetivo). Otra forma de verlo es que todas las normas se ven como | X | cuando tomas rebanadas unidimensionales, y | X | es lineal por tramos con la segunda derivada 0 excepto en X = 0 donde no es diferenciable.

Si realmente quiere usar el enfoque de Newton, debe usar la formulación variacional que dice que

X = min L , R : L R = X 1 2 ( L F 2 + R F 2 )
luego minimizando una función como
F ( X ) + X = min L , R F ( L R ) + 1 2 ( L F 2 + R F 2 )
se puede hacer alternando la minimización sobre L y R , donde estos problemas son continuos si F es continuo

Asumir que norte pag . Dejar ϕ : X METRO norte , pag | | X | | ; entonces ϕ es C en un barrio de cualquier X METRO norte , pag que tiene rango completo pag .

Dejar F : A S pag > 0 t r ( A ) ; entonces D F A : L S pag 1 / 2 t r ( L A 1 / 2 ) .

Según mi publicación o la de greg en (1)

Derivado de la norma nuclear con respecto a su argumentación

el derivado de ϕ es D ϕ X : H METRO norte , pag t r ( X ( X T X ) 1 / 2 H T ) .

Desafortunadamente, no existe tal forma cerrada para D 2 ϕ X ( H , k ) , porque, en general, X T X y ( X T X ) no conmutar (eso es inútil para el cálculo de la primera derivada).

Por otro lado, eso de arriba no funciona cuando X no tiene rango completo. Dado que las normas son todas equivalentes, no entiendo por qué los investigadores persisten en usar la norma nuclear en lugar de la norma estándar de Frobenius. Se me escapa algo pero los especialistas seguro que tienen buenas razones.

Acerca de los métodos alternativos, Peder dio aquí una respuesta interesante sobre el subdiferencial. Además, Michael Grant en (1) nuevamente habla sobre varios métodos que parecen dar una buena respuesta a la pregunta del OP; por último, pero no menos importante, Michael da un enlace a su software TFOCS

http://cvxr.com/tfocs/

Finalmente, los especialistas se cansan de responder preguntas muchas veces sin ser realmente escuchados; de hecho, la gente prefiere reinventar la rueda...