Derivada con respecto a la matriz, de una función multidimensional, utilizada para la optimización del descenso de gradiente.

Considere la función de pérdida

min A k = 1 3 ( A k X 1 X k + 1 ) 2 ,
que se optimiza utilizando un método de descenso de gradiente, es decir
A 2 × 2 = A 2 × 2 α (  gradiente wrt A ) 2 × 2 .
La matriz de parámetros A es un 2 × 2 matriz, digamos
A = ( a 1 a 2 a 3 a 4 ) .
Sin embargo, la función de pérdida es bidimensional ( 2 × 1 vector), entonces, ¿cuál sería ese gradiente en este caso, para que los parámetros en A para ser actualizado correctamente. Si trato de calcular dicho gradiente, digamos para el término
A 2 X 1 ,
termino con
A X 1 2 A = ( ( a 1 2 + a 2 a 3 ) X 1 + ( a 1 a 2 + a 2 a 4 ) X 2 ( a 1 a 3 + a 1 a 4 ) X 1 + ( a 2 a 3 + a 4 2 ) X 2 ) A = ( 2 a 1 X 1 + a 2 X 2 a 3 X 1 + a 2 X 2 a 2 X 1 a 2 X 2 a 3 X 1 a 3 X 2 a 1 X 1 + a 2 X 2 a 1 X 1 + 2 a 4 X 2 ) ,

que parece ser un 2 × 4 matriz. ¡Esto no tiene sentido para mi algoritmo! Todavía no sé cómo actualizar mis parámetros, ya que tengo demasiados elementos en mi degradado. Esperaría un gradiente de la misma dimensión que mi matriz de parámetros. A , por lo que las operaciones aritméticas siguen siendo válidas.

¿Cuál es la forma correcta de calcular un gradiente con respecto a una matriz (cuadrada), cuando su función de pérdida es multidimensional? ¿O mi método/interpretación de la actualización de gradiente es incorrecto en primer lugar? Si es así, ¿qué hago en su lugar?

No tiene mucho sentido que la función objetivo sea bidimensional (a menos que esté buscando una optimización multiobjetivo, pero esa es una historia diferente). tal vez quieras A k X 1 X k + 1 2 ? (Para ver por qué no tiene mucho sentido, en el sentido ordinario, tenga en cuenta que los dos componentes de su pérdida podrían minimizarse en diferentes puntos).
¿Por qué no si puedo preguntar? El problema se refiere a un objetivo de identificación del sistema, donde tenemos múltiples estados. También a mi asesor (profesor titular) se le ocurrió esta función y mi otro supervisor (postdoctorado) aprueba esta idea.
Primero eche un vistazo a la optimización multiobjetivo y vea si esto es lo que quiere hacer. ¿Por qué no? Por lo que mencioné. Tienes que pensar en lo que significa para una función. F : R 4 R 2 ser minimizado. Si está claro lo que significa para las funciones de valores escalares. No tan claro de lo contrario.

Respuestas (1)

transeúnte51 tiene razón. Olvidé que mi profesor dibujó una función de la forma ( ) T ( ) , lo que equivaldría a ( ) 2 en el caso escalar. Y eso es equivalente a la sugerencia de passerby51 , que usamos el cuadrado de 2 normas, que es una función escalar .

No se preocupen por mi error chicos... y manténganse alejados de las drogas.