La regla de la cadena para la diferenciación produce dimensiones en conflicto

Supongamos que tengo funciones diferenciables (en el sentido de la derivada frechet) F : R R norte × norte y gramo : R norte R , dónde F es un operador lineal, y desea calcular la derivada (frechet) de su composición, es decir F gramo : R norte R norte , norte . Usando la regla de la cadena para espacios normados obtengo

D ( F gramo ( X ) ) h = ( D F ) ( gramo ( X ) ) R norte × norte D gramo ( X ) R 1 × norte h , h R .
¿Cómo puede sostenerse esto si las dimensiones del producto no coinciden?

Editar: Considere la función

F ( X ) = A ( X ) X .
con
A ( X ) : R norte R norte , norte , A ( X ) = [ α ( X ) 1 0 0 0 1 α ( X ) 1 0 0 0 1 α ( X ) 1 0 0 0 0 1 α ( X ) 1 0 0 0 0 1 α ( X ) ]
por lo cual α ( X ) = X 2 . Mi profesor ahora reescribe lo anterior como
A ( X ) X = T X + X X 2 , T := [ 3 1 1 3 1 3 1 3 1 1 3 ] .
Luego encuentra
D F ( X ) h = T h + X 2 h + X X h X 2 = ( A ( X ) + X X X 2 ) h

de lo cual concluí que

D ( A ( X ) ) = X X T X 2 .

( D F ) ( gramo ( X ) ) es en R norte 2 × 1
@JeffCheng mira mi edición.
¿Cómo concluyes que D ( A ( X ) ) = X X T X 2 ?
Qué es R norte × norte en contraste con R norte , norte ?
Deberías escribir A : R norte R norte , norte . A ( X ) es un elemento de R norte , norte .

Respuestas (3)

A los efectos de este tipo de cálculo multivariado (p. ej., derivados de Frechet), un dominio o codominio de metro × norte matrices reales se identifica con R metro norte , no con R metro × norte . Usted "aplana" sus matrices antes de hacer derivadas y reglas de cadena sobre ellas. Al menos si desea que su derivada en un punto determinado se represente mediante una cuadrícula rectangular estándar de números.

Si no desea aplanar sus matrices antes de hacer cálculos en ellas, entonces sus derivadas serán cuboides de mayor dimensión. Ahora se está aventurando en lo que yo llamaría el territorio del cálculo tensorial.

Editar: después de ver tu ejemplo, esto es lo que creo que sucede: A es una funcion R norte R R norte × norte , la forma en que usted describe. Pero F es una funcion R norte R norte , y como tal, su derivado Frechet puede realizarse como un norte × norte matriz. Te han dado la matriz D F = A ( X ) + X X T X 2 como este derivado.

hm, mi profesor dijo que la derivada resultante de lo anterior estará en R norte × norte , sin embargo, con el enfoque aplanado esto produciría un elemento en R norte 2 × norte
@Richard Bueno, la composición produce un mapa R R norte 2 . La derivada de Frechet en cualquier punto debe ser un mapa lineal con el mismo dominio y codominio. No veo cómo puedes salir de eso.
Editaré mi pregunta con un ejemplo, sería muy amable si pudiera echarle un vistazo.
ok, rápidamente escribí un ejemplo de la conferencia

De hecho, la derivada de Frechet se puede definir para mapas entre espacios arbitrarios normados, en particular para mapas en el espacio de ( norte × norte ) -matrices. Dado ϕ : V W . la derivada de Frechet de ϕ en X V es un mapa lineal D ϕ ( X ) = D ϕ X : V W . La regla de la cadena dice que

D ( ψ ϕ ) ( X ) = D ( ψ ) ( ϕ ( X ) ) D ϕ ( X ) .
Aplicando este mapa lineal a h V da
D ( ψ ϕ ) ( X ) ( h ) = D ( ψ ) ( ϕ ( X ) ) ( D ϕ ( X ) ( h ) ) .
Parece que no distingue correctamente entre mapas lineales y sus representaciones matriciales, y esto puede resultar confuso.

No hay problema de dimensión en su pregunta: D gramo ( X ) es un mapa lineal R norte R , por eso D ϕ ( X ) ( h ) R . También D F ( gramo ( X ) ) es un mapa lineal R R norte × norte y por supuesto insertas D gramo ( X ) ( h ) como argumento. En términos de matrices: D gramo ( X ) es un ( norte × 1 ) -matriz, D F ( gramo ( X ) ) es un ( 1 × norte 2 ) -matriz (donde identificamos R norte × norte con R norte 2 para obtener una matriz "estándar" con entradas reales) y su producto un norte × norte 2 -matriz. Usted escribe D F ( gramo ( X ) ) R norte × norte , pero esto es incorrecto ya que sugiere que es un ( norte × norte ) -matriz.

Con respecto a su ejemplo, no veo la conexión con la regla de la cadena. F no es la composición de dos funciones como se necesita en la regla de la cadena. Pero ciertamente tu conclusión

D ( A ( X ) ) = X X T X 2
falla D A ( X ) es un mapa lineal D A ( X ) : R norte R norte × norte , pero X X X 2 es un solo ( norte × norte ) -matriz .

Un gradiente de matriz por vector genera un tensor de tercer orden, por lo que no encaja cómodamente en la notación de matriz estándar.

Sin embargo, la diferencial de una matriz tiene la forma de una matriz y obedece todas las reglas del álgebra matricial. Asimismo, la diferencial de un vector obedece a las reglas familiares del álgebra vectorial.

Primero, considere los diferenciales de las funciones constituyentes.

α 2 = X T X 2 α d α = 2 X T d X d α = X T d X α A = B + I α d A = I d α
Con estos podemos diferenciar la función compuesta usando sustitución hacia atrás.
F = A X d F = A d X + d A X = A d X + X d α = ( A + X X T α ) d X F X = ( A + X X T α )
Si realmente necesita el tensor de tercer orden, es
A X = ( I X α )
dónde denota el producto diádico (también conocido como tensor).

gracias por la respuesta, realmente no he aprendido sobre diferenciales todavía, ¿se introducen rigurosamente en el tema de formas diferenciales?
@Richard Eso podría ayudarlo a comprender el caso del vector, pero el diferencial de una matriz no se puede expresar utilizando Formas diferenciales. Para obtener más información, recomendaría la última edición de Matrix Differential Calculus de Magnus y Neudecker , o tal vez Complex-Valued Matrix Derivatives de Hjorungnes.