Derivada con respecto a la matriz, de una función multidimensional, utilizada para la optimización del descenso de gradiente.

Question

Derivada con respecto a la matriz, de una función multidimensional, utilizada para la optimización del descenso de gradiente.

matrices
Matemáticas
mejoramiento
descenso de gradiente
cálculo multivariable

WiseDev

Considere la función de pérdida

min_{A} \sum_{k = 1}^{3} (A^{k} X_{1} - X_{k + 1})^{2},

$\min_{A}\sum_{k=1}^{3} (A^kx_1-x_{k+1})^2,$ que se optimiza utilizando un método de descenso de gradiente, es decir

A_{2 \times 2} = A_{2 \times 2} - α (gradiente wrt A)_{2 \times 2} .

$A_{2\times2} = A_{2\times2} - \alpha (\text{ gradient w.r.t. A})_{2\times2}.$ La matriz de parámetros

A

$A$ es un

2 \times 2

$2\times2$ matriz, digamos

A = (\begin{matrix} a_{1} & a_{2} \\ a_{3} & a_{4} \end{matrix}) .

$A = \begin{pmatrix}a_1 & a_2 \\ a_3 & a_4\end{pmatrix}.$ Sin embargo, la función de pérdida es bidimensional (

2 \times 1

$2\times1$ vector), entonces, ¿cuál sería ese gradiente en este caso, para que los parámetros en

A

$A$ para ser actualizado correctamente. Si trato de calcular dicho gradiente, digamos para el término

A^{2} X_{1},

$A^2x_1,$ termino con

\frac{\partial A_{X_{1}}^{2}}{\partial A} = \frac{\partial (\begin{matrix} (a_{1}^{2} + a_{2} a_{3}) X_{1} + (a_{1} a_{2} + a_{2} a_{4}) X_{2} \\ (a_{1} a_{3} + a_{1} a_{4}) X_{1} + (a_{2} a_{3} + a_{4}^{2}) X_{2} \end{matrix})}{\partial A} = (\begin{matrix} 2 a_{1} X_{1} + a_{2} X_{2} & a_{3} X_{1} + a_{2} X_{2} & a_{2} X_{1} & a_{2} X_{2} \\ a_{3} X_{1} & a_{3} X_{2} & a_{1} X_{1} + a_{2} X_{2} & a_{1} X_{1} + 2 a_{4} X_{2} \end{matrix}),

$\frac{\partial A^2_{x_1}}{\partial A}= \frac{\partial \begin{pmatrix}(a_1^2+a_2a_3)x_1+(a_1a_2+a_2a_4)x_2 \\ (a_1a_3+a_1a_4)x_1+(a_2a_3+a_4^2)x_2\end{pmatrix}}{\partial A}=\begin{pmatrix}2a_1x_1+a_2x_2 & a_3x_1+a_2x_2 & a_2x_1 & a_2x_2 \\ a_3x_1 & a_3x_2 & a_1x_1+a_2x_2 & a_1x_1 + 2a_4x_2 \end{pmatrix},$

que parece ser un $2\times4$ matriz. ¡Esto no tiene sentido para mi algoritmo! Todavía no sé cómo actualizar mis parámetros, ya que tengo demasiados elementos en mi degradado. Esperaría un gradiente de la misma dimensión que mi matriz de parámetros. $A$ , por lo que las operaciones aritméticas siguen siendo válidas.

¿Cuál es la forma correcta de calcular un gradiente con respecto a una matriz (cuadrada), cuando su función de pérdida es multidimensional? ¿O mi método/interpretación de la actualización de gradiente es incorrecto en primer lugar? Si es así, ¿qué hago en su lugar?

transeúnte51

No tiene mucho sentido que la función objetivo sea bidimensional (a menos que esté buscando una optimización multiobjetivo, pero esa es una historia diferente). tal vez quieras

‖ A^{k} x_{1} - x_{k + 1} ‖^{2}

$\| A^k x_1- x_{k+1}\|^2$ ? (Para ver por qué no tiene mucho sentido, en el sentido ordinario, tenga en cuenta que los dos componentes de su pérdida podrían minimizarse en diferentes puntos).

WiseDev

¿Por qué no si puedo preguntar? El problema se refiere a un objetivo de identificación del sistema, donde tenemos múltiples estados. También a mi asesor (profesor titular) se le ocurrió esta función y mi otro supervisor (postdoctorado) aprueba esta idea.

transeúnte51

Primero eche un vistazo a la optimización multiobjetivo y vea si esto es lo que quiere hacer. ¿Por qué no? Por lo que mencioné. Tienes que pensar en lo que significa para una función.

f : R^{4} \to R^{2}

$f: \mathbb R^4 \to \mathbb R^2$ ser minimizado. Si está claro lo que significa para las funciones de valores escalares. No tan claro de lo contrario.

Respuestas (1)

Derivada con respecto a la matriz, de una función multidimensional, utilizada para la optimización del descenso de gradiente.

No tiene mucho sentido que la función objetivo sea bidimensional (a menos que esté buscando una optimización multiobjetivo, pero esa es una historia diferente). tal vez quieras $\| A^k x_1- x_{k+1}\|^2$ ? (Para ver por qué no tiene mucho sentido, en el sentido ordinario, tenga en cuenta que los dos componentes de su pérdida podrían minimizarse en diferentes puntos).
¿Por qué no si puedo preguntar? El problema se refiere a un objetivo de identificación del sistema, donde tenemos múltiples estados. También a mi asesor (profesor titular) se le ocurrió esta función y mi otro supervisor (postdoctorado) aprueba esta idea.
Primero eche un vistazo a la optimización multiobjetivo y vea si esto es lo que quiere hacer. ¿Por qué no? Por lo que mencioné. Tienes que pensar en lo que significa para una función. $f: \mathbb R^4 \to \mathbb R^2$ ser minimizado. Si está claro lo que significa para las funciones de valores escalares. No tan claro de lo contrario.

WiseDev · Answer 1

transeúnte51 tiene razón. Olvidé que mi profesor dibujó una función de la forma $(\cdot)^T(\cdot)$ , lo que equivaldría a $(\cdot)^2$ en el caso escalar. Y eso es equivalente a la sugerencia de passerby51 , que usamos el cuadrado de 2 normas, que es una función escalar .

No se preocupen por mi error chicos... y manténganse alejados de las drogas.

Derivada con respecto a la matriz, de una función multidimensional, utilizada para la optimización del descenso de gradiente.

WiseDev

transeúnte51

WiseDev

transeúnte51

Respuestas (1)

WiseDev

Cuestión de prueba de máximos relacionada con la forma cuadrática

Derivada numérica de una matriz en función de una matriz de Rotación

La suma ponderada de los valores de la diagonal está dominada por la suma de los valores singulares

Existencia de mapas de matrices diferenciables M(3,R)→M(3,R)M(3,R)→M(3,R)M(3,\mathbb{R}) \rightarrow M(3,\mathbb{ R})

Desigualdad con respecto a la norma de una matriz definida positiva

¿Alguna interpretación del hecho de que centroide = punto óptimo para maximizar el volumen de dicho cuboide?

Comprender el descenso de gradiente estocástico y los métodos derivados

Los multiplicadores de Lagrange no dan todas las soluciones

¿Cómo obtener el gradiente de un producto de matriz con respecto a un vector?

¿Cómo te acercas al completar el cuadrado?