Considere la función de pérdida
que parece ser un matriz. ¡Esto no tiene sentido para mi algoritmo! Todavía no sé cómo actualizar mis parámetros, ya que tengo demasiados elementos en mi degradado. Esperaría un gradiente de la misma dimensión que mi matriz de parámetros. , por lo que las operaciones aritméticas siguen siendo válidas.
¿Cuál es la forma correcta de calcular un gradiente con respecto a una matriz (cuadrada), cuando su función de pérdida es multidimensional? ¿O mi método/interpretación de la actualización de gradiente es incorrecto en primer lugar? Si es así, ¿qué hago en su lugar?
transeúnte51 tiene razón. Olvidé que mi profesor dibujó una función de la forma , lo que equivaldría a en el caso escalar. Y eso es equivalente a la sugerencia de passerby51 , que usamos el cuadrado de 2 normas, que es una función escalar .
No se preocupen por mi error chicos... y manténganse alejados de las drogas.
transeúnte51
WiseDev
transeúnte51