Segunda derivada de la norma nuclear

Question

Segunda derivada de la norma nuclear

derivados
Matemáticas
norma-nuclear
mejoramiento
álgebra lineal
cálculo matricial

Dan

La norma nuclear se define de la siguiente manera

‖ X ‖_{*} := tr (\sqrt{X^{T} X})

$\| X \|_* := \mbox{tr} \left( \sqrt{X^T X} \right)$

y, de Derivado de la norma nuclear con respecto a su argumentación ,

\frac{d}{d X} ‖ X ‖_{*} = tu Σ^{- 1} ∣ Σ ∣ V^{T}

$\frac{d}{dX} \| X \|_* = U\Sigma^{-1}\mid\Sigma \mid V^T$

¿ Cuál es la segunda derivada de la norma nuclear?

\frac{d^{2}}{d X^{2}} ‖ X ‖_{*} = ?

$\frac{d^2}{dX^2} \| X \|_* = ?$

Lo necesito para calcular el método de Newton para mi algoritmo y no he tenido mucho éxito. Cualquier ayuda sería muy apreciada. ¡Gracias de antemano!

Ben Grossman

Tenga en cuenta que está calculando la derivada de una función matricial con respecto a una matriz, por lo que la forma de su derivada definitivamente será un poco extraña. En particular, si tomamos la derivada de Frechet , la salida de la segunda derivada debería ser una transformación lineal de matrices a matrices. Interpretar

\frac{d^{2}}{d X^{2}}

$\frac {d^2}{dX^2}$ de la misma manera que lo hiciste con

\frac{d}{d X}

$\frac d{dX}$ , necesitarías una función que produzca rango

4

$4$ tensores.

greg

Es mejor que te olvides de Newton y utilices un método basado en gradientes como Polak-Ribiere o Barzilai-Borwein.

Respuestas (2)

Segunda derivada de la norma nuclear

Tenga en cuenta que está calculando la derivada de una función matricial con respecto a una matriz, por lo que la forma de su derivada definitivamente será un poco extraña. En particular, si tomamos la derivada de Frechet , la salida de la segunda derivada debería ser una transformación lineal de matrices a matrices. Interpretar $\frac {d^2}{dX^2}$ de la misma manera que lo hiciste con $\frac d{dX}$ , necesitarías una función que produzca rango $4$ tensores.
Es mejor que te olvides de Newton y utilices un método basado en gradientes como Polak-Ribiere o Barzilai-Borwein.

pedro · Answer 1

La razón por la que no ha tenido éxito es que la norma nuclear no es diferenciable. Tu respuesta para la derivada es solo parcialmente correcta. Si estás en el cono definido positivo, tu respuesta es correcta y se reduce a la matriz identidad. $I$ , pero si la matriz $X$ es de rango bajo, entonces la función no es diferenciable y lo mejor que puede hacer es calcular el subdiferencial

\partial ‖ X ‖_{*} = {tu V^{⊤} + W : {tu}^{T} W = W V = 0, ‖ W ‖_{2}},

$\partial \|X\|_* = \left\{UV^\top+W: U^TW = WV = 0, \quad\|W\|_2\right\},$ dónde

‖ W ‖_{2} = max e i g (W)

$\|W\|_2=\max eig(W)$ es la norma espectral que es el valor propio máximo de W.

Dado que la norma nuclear es una norma y todas las normas son convexas, podemos hablar de la subdiferencial, que es el conjunto de todas las tangentes que se encuentran debajo de la función. La prueba del resultado anterior se puede encontrar en este documento:

Watson, GA Caracterización del subdiferencial de algunas normas matriciales. Álgebra lineal y sus aplicaciones, 170:33–45, 1992.

De la expresión anterior puedes ver que la norma nuclear es lineal por partes en cada uno de los conos. Por lo tanto, la segunda derivada sería cero en cada una de las piezas diferenciables. Eso debería explicar por qué el algoritmo de Newton no funciona tan bien (en realidad, depende de qué más haya en su función objetivo). Otra forma de verlo es que todas las normas se ven como $|x|$ cuando tomas rebanadas unidimensionales, y $|x|$ es lineal por tramos con la segunda derivada 0 excepto en $x=0$ donde no es diferenciable.

Si realmente quiere usar el enfoque de Newton, debe usar la formulación variacional que dice que

‖ X ‖_{*} = min_{L, R : L R^{⊤} = X} \frac{1}{2} (‖ L ‖_{F}^{2} + ‖ R ‖_{F}^{2})

$\|X\|_* = \min_{L,R:LR^\top = X} \frac{1}{2}\left(\|L\|_F^2+\|R\|_F^2\right)$ luego minimizando una función como

F (X) + ‖ X ‖_{*} = min_{L, R} F (L R^{⊤}) + \frac{1}{2} (‖ L ‖_{F}^{2} + ‖ R ‖_{F}^{2})

$f(X)+\|X\|_* = \min_{L,R} f(LR^\top)+ \frac{1}{2}\left(\|L\|_F^2+\|R\|_F^2\right)$ se puede hacer alternando la minimización sobre

L

$L$ y

R

$R$ , donde estos problemas son continuos si

f

$f$ es continuo

usuario91684 · Answer 2

Asumir que $n\geq p$ . Dejar $\phi:X\in M_{n,p}\rightarrow ||X||_*$ ; entonces $\phi$ es $C^{\infty}$ en un barrio de cualquier $X\in M_{n,p}$ que tiene rango completo $p$ .

Dejar $f:A\in S_p^{>0}\rightarrow tr(\sqrt{A})$ ; entonces $Df_A:L\in S_p\rightarrow 1/2tr(LA^{-1/2})$ .

Según mi publicación o la de greg en (1)

Derivado de la norma nuclear con respecto a su argumentación

el derivado de $\phi$ es $D\phi_X:H\in M_{n,p}\rightarrow tr(X(X^TX)^{-1/2}H^T)$ .

Desafortunadamente, no existe tal forma cerrada para $D^2\phi_X(H,K)$ , porque, en general, $X^TX$ y $(X^TX)'$ no conmutar (eso es inútil para el cálculo de la primera derivada).

Por otro lado, eso de arriba no funciona cuando $X$ no tiene rango completo. Dado que las normas son todas equivalentes, no entiendo por qué los investigadores persisten en usar la norma nuclear en lugar de la norma estándar de Frobenius. Se me escapa algo pero los especialistas seguro que tienen buenas razones.

Acerca de los métodos alternativos, Peder dio aquí una respuesta interesante sobre el subdiferencial. Además, Michael Grant en (1) nuevamente habla sobre varios métodos que parecen dar una buena respuesta a la pregunta del OP; por último, pero no menos importante, Michael da un enlace a su software TFOCS

http://cvxr.com/tfocs/

Finalmente, los especialistas se cansan de responder preguntas muchas veces sin ser realmente escuchados; de hecho, la gente prefiere reinventar la rueda...

Segunda derivada de la norma nuclear

Dan

Ben Grossman

greg

Respuestas (2)

pedro

usuario91684

Derivada de la norma nuclear ∥XA∥∗‖XA‖∗{\left\| {XA} \right\|_*} con respecto a XXX

Cómo obtener ddT(Z∘(TX))=XT⊗Diag(Z)ddT(Z∘(TX))=XT⊗Diag(Z) \frac{\mathrm{d}}{\mathrm{d} \mathbf {T}} (\mathbf{Z} \circ (\mathbf{T}\mathbf{X})) = \mathbf{X}^T \otimes Diag(\mathbf{Z}) ?

Derivada de la entropía de von Neumann

Derivada de una función compuesta R→Rn×n→RR→Rn×n→R\mathbb{R} \to \mathbb{R}^{n\times n} \to \mathbb{R}

Vectores linealmente independientes de un conjunto

Una solución más simple a un problema de optimización.

¿Cuál es la solución de esta ecuación diferencial vectorial?

¿Qué significa la segunda derivada de una función lineal?

La suma ponderada de los valores de la diagonal está dominada por la suma de los valores singulares

Existencia de mapas de matrices diferenciables M(3,R)→M(3,R)M(3,R)→M(3,R)M(3,\mathbb{R}) \rightarrow M(3,\mathbb{ R})