Derivada matricial de una matriz con restricciones

Estoy buscando un método general para obtener reglas derivadas de una matriz restringida con respecto a sus elementos de matriz.

En el caso de una matriz simétrica S i j (con S i j = S j i ), una forma de hacerlo es la siguiente (ver Variación de la métrica con respecto a la métrica ). Decimos que una variación de un elemento de matriz d S i j es el mismo que el de d S j i , y por lo tanto

d S i j = d S i j + d S j i 2 = d i k d j yo + d i yo d j k 2 d S k yo = S i j ; k yo d S k yo .
el tensor S i j ; k yo tiene la hermosa propiedad de que S i j ; k yo S k yo ; metro norte = S i j ; metro norte . Uno entonces dice que
d S i j d S k yo = S i j ; k yo .

Debo admitir que no me queda muy claro por qué este es el procedimiento correcto (eso parece ser bastante arbitrario, aunque obviamente funciona para calcular derivadas de una función de una matriz simétrica). Esto significa que no me queda claro cómo generalizar eso cuando la restricción es diferente.

Por ejemplo, tomemos el conjunto de matrices O perteneciente al grupo S O ( norte ) . ¿Hay alguna manera de escribir? d O i j d O k yo en términos de un tensor B i j ; k yo , con todas las mismas buenas propiedades ?

En el caso de S O ( 2 ) , esto parece bastante fácil, desde entonces O j i = ( 1 ) i + j O i j , y se encuentra en ese caso

d O i j d O k yo = d i k d j yo + ( 1 ) i + j d i yo d j k 2 ,
que de hecho hace el trabajo. Sin embargo, tenga en cuenta que no he usado la propiedad definitoria de S O ( norte ) , es decir O O T = 1 , y no estoy seguro de si esto es relevante...

Ya en el caso de S O ( 3 ) , no parece fácil encontrar el tensor equivalente...


Nota al margen: usando la propiedad definitoria de S O ( 2 ) , se pueden masajear las fórmulas para obtener

d O i j d O k yo = O i yo O k j .
En primer lugar, depende explícitamente de O , que parece malo. Además, si definimos tentativamente B i j ; k yo [ O ] = O i yo O k j (que ya es diferente de lo que encontramos para S O ( 2 ) ), entonces nosotros tenemos B i j ; k yo [ O ] B k yo ; metro norte [ O ] = d i metro d j norte , que parece bastante raro...


Si alguien conoce el procedimiento estándar (si existe) o una buena referencia, sería muy apreciado. En cualquier caso, una buena explicación (quizás un poco formal) en el caso de la matriz simétrica también podría ayudarme a entender el problema.

Respuestas (2)

  1. Configuración. Que se dé un metro -variedad dimensional METRO con coordenadas ( X 1 , , X metro ) . Que se dé un norte -subvariedad física dimensional norte con coordenadas físicas ( y 1 , , y norte ) . Que se dé metro norte restricciones independientes

    (1) x 1 ( X )     0 , , x metro norte ( X )     0 ,
    que define la subvariedad física norte . [Aquí el símbolo significa igualdad débil, es decir, igualdad módulo las restricciones.] Supongamos que
    (2) ( y 1 , , y norte , x 1 , , x metro norte )
    constituye un sistema de coordenadas para la variedad extendida METRO .

  2. Derivado de Dirac. En analogía con el corchete de Dirac , introduzcamos un derivado de Dirac

    (3) ( X i ) D   :=   X i a = 1 metro norte x a X i ( x a ) y   =   α = 1 norte y α X i ( y α ) x , i     { 1 , , metro } ,
    que se proyecta sobre la subvariedad física
    ( X i ) D y α   =   y α X i , ( X i ) D x a   =   0 ,
    (4) i     { 1 , , metro } , α     { 1 , , norte } , a     { 1 , , metro norte } .

  3. Observación. En muchos casos importantes es posible elegir las coordenadas físicas ( y 1 , , y norte ) tal que la derivada de Dirac (4) se puede escribir como combinaciones lineales de parciales sin restricciones X -sólo derivados, sin hacer referencia a los ( y , x ) -sistema de coordenadas (2), cf. ecuaciones (10) y (14) a continuación.

  4. ¿Los derivados de Dirac conmutan? ¿El conmutador

    (5) [ ( X i ) D , ( X j ) D ]   =   α , β = 1 norte y α X i [ ( y α ) x , y β X j ] ( y β ) x ( i j )   ?   0
    desaparece débilmente? No necesariamente. Pero si la transformación de coordenadas X i ( y α , x a ) es lineal, entonces las derivadas de Dirac conmutan.

  5. Ejemplo. Sea el subespacio físico el hiperplano norte = { x ( X ) = 0 } con la restricción

    (6) x   =   i = 1 metro X i .
    Definir coordenadas físicas
    (7) y α   =   X α 1 metro i = 1 metro X i , α     { 1 , , norte = metro 1 } .
    En cambio,
    (8) X α   =   y α + 1 metro x , α     { 1 , , norte } , X metro   =   β = 1 norte y β + 1 metro x .
    Las derivadas se relacionan como
    X α   =   ( y α ) x 1 metro β = 1 norte ( y β ) x + ( x ) y , α     { 1 , , norte } ,
    (9) X metro   =   1 metro β = 1 norte ( y β ) x + ( x ) y .
    La derivada de Dirac se convierte después de un poco de álgebra
    (10) ( X i ) D   =   X i ( x ) y   =   X i 1 metro j = 1 metro X j , i     { 1 , , metro } .

  6. Ejemplo. Escritura de diferenciación. una matriz simétrica puede verse como una diferenciación de Dirac (3), donde las restricciones (1) están dadas por matrices antisimétricas. Definir

    (11) s ( i j )   :=   METRO i j + METRO j i 2 y a ( i j )   :=   METRO i j METRO j i 2 por i   >   j ; y d ( i )   :=   METRO i i .
    En cambio,
    (12) METRO i j   =   θ i j ( s ( i j ) + a ( i j ) ) + θ j i ( s ( j i ) a ( j i ) ) + d i j d ( i ) ,
    donde la discreta función escalón de Heaviside θ i j aquí se supone que obedece θ i i = 0 (sin suma implícita). Las derivadas se relacionan como
    (13) METRO i j   =   θ i j 2 ( s ( i j ) + a ( i j ) ) + θ j i 2 ( s ( j i ) a ( j i ) ) + d i j d ( i ) .
    La derivada de Dirac se convierte después de un poco de álgebra
    (14) ( METRO i j ) D   =   θ i j 2 s ( i j ) + θ j i 2 s ( j i ) + d i j d ( i )   =   1 2 ( METRO i j + METRO j i ) .

  7. Observación. Surgen complicaciones adicionales si las coordenadas y/o restricciones no están definidas globalmente. Para empezar, en realidad es suficiente si (2) es un sistema de coordenadas en una vecindad tubular de norte .

  8. Reparametrizaciones de las restricciones. Suponga que existe un segundo sistema de coordenadas

    (15) ( y ~ 1 , , y ~ norte , x ~ 1 , , x ~ metro norte )
    (que adornamos con tildes), tal que
    (dieciséis) y ~ α   =   F α ( y ) , x ~ a   =   gramo a ( y , x )     0.
    Esto implica que
    (17) ( x a ) y   =   ( x ~ b x a ) y ( x ~ b ) y ~ , ( y α ) x     ( y ~ β y α ) x ( y ~ β ) x ~ ,
    es decir
    (18) Δ x   :=   s pag a norte { ( x 1 ) y , , ( x norte metro ) y }     T METRO
    es una distribución involutiva, mientras que
    (19) Δ y   :=   s pag a norte { ( y 1 ) x , , ( y norte ) x }     T METRO
    es una distribución débil.

    Se puede demostrar que la derivada de Dirac y sus conmutadores

    (20) ( X i ) D     ( X i ) D , [ ( X i ) D , ( X j ) D ]     [ ( X i ) D , ( X j ) D ] ,
    [wrt. los sistemas de coordenadas tilde y tillde (15) y (2), respectivamente] concuerdan débilmente. Esto muestra que la derivada de Dirac (3) es una construcción geométrica.

  9. Subsubvariedad. Dado un pag -subsubvariedad física dimensional PAG con coordenadas físicas ( z 1 , , z pag ) . Que se dé norte pag restricciones independientes

    (21) ϕ 1 ( y )     0 , , ϕ norte pag ( y )     0 ,
    que define la subvariedad física PAG . Asumir que
    (22) ( z 1 , , z pag , ϕ 1 , , ϕ norte pag )
    constituye un sistema de coordenadas para la subvariedad norte . Uno puede demostrar que
    (23) ( X i ) D ( PAG )   =   ( X i ) D ( norte ) a = 1 norte pag ( ϕ a X i ) D ( norte ) ( ϕ a ) z , i     { 1 , , metro } .
    Esto muestra que la construcción derivada de Dirac se comporta de forma natural. restricciones adicionales.

Además, en la práctica, suele ser mucho más útil olvidar que su matriz es simétrica cuando está diferenciando e imponer la condición de simetría más adelante.
Gracias por la respuesta. Sin embargo, no me queda muy claro cómo implementar eso para un caso específico (por ejemplo, en el caso de matrices simétricas, ¿qué significa X i y y i están representando? ¿El elemento de matriz independiente para este último?). ¿Le importaría dar el cálculo explícito para el caso simétrico, de modo que pueda intentar generalizar eso para mis casos? Además, ¿cuál es una buena referencia para comenzar a aprender sobre eso?
Además, no entiendo qué ( / x a ) y se supone que significa en la práctica...
¡Muchas gracias por el ejemplo! Si traduzco todo entre 2 y 3, el X 's corresponde a los elementos (independientes) de METRO , la s 'arena d 's a la y 's, y el a 's a la x 's. ¡Ahora trataré de ver si puedo entender todo eso para mis casos más complicados!
@Qmechanic: creo que entiendo mejor mi confusión, aunque todavía tengo algunos problemas. Si tuviera que usar diferenciales con restricciones estándar, impondría d METRO j i = d METRO i j , y obtendría METRO i j | C = METRO i j + METRO j i (que es lo que cabría esperar ingenuamente). Pero lo que pareces hacer es permitir arbitrariamente d METRO j i y d METRO i j , mientras lo proyecta en el espacio METRO i j = METRO j i , lo que da METRO i j | D = 1 2 METRO i j + 1 2 METRO j i . Mi pregunta es: ¿por qué usar uno y no el otro? ¿Cuál es la distinción entre los dos?
Su método parece ser consistente con este documento: doi.org/10.1016/0895-7177(95)00082-D ¿Tiene otras referencias sobre este tipo de método?
no estoy seguro de qué METRO i j | C se supone que significa. Considere elaborar detalladamente su definición. Solo METRO i j | D parece válido. El derivado de Dirac se desarrolló desde cero, inspirado en la dinámica restringida, cf. por ejemplo, Henneaux y Teitelboim.
Aquí hay un ejemplo simple de lo que quiero decir. tomar una función F ( X , y ) , con la restricción X = y . el diferencial de F , con restricción, es d F = F ( 1 , 0 ) d X + F ( 0 , 1 ) d y . El método estándar para implementar la restricción es decir que d y = d X y por lo tanto d F = ( F ( 1 , 0 ) + F ( 0 , 1 ) ) d X , lo que da que la derivada de F bien X con la restricción es d F / d X | C = F ( 1 , 0 ) + F ( 0 , 1 ) . Por otro lado, su método permite un cambio arbitrario de s X y d y , que luego se proyectan en el subespacio de la restricción: ( d X , d y ) = PAG ( d X , d y ) que es este caso significa...
... d X = 1 2 ( d X + d y ) y d y = 1 2 ( d X + d y ) , mientras que la variación de F es dado por d F = F ( 1 , 0 ) d X + F ( 0 , 1 ) d y = F ( 1 , 0 ) + F ( 0 , 1 ) 2 ( d X + d y ) , Lo que significa que d F / d X | D = F ( 1 , 0 ) + F ( 0 , 1 ) 2 . (NB: si ponemos d y = d X en la fórmula anterior, obtenemos el mismo resultado que con el método estándar).

A mí me parece un poco inadecuado diferenciar una matriz ortogonal con respecto a sus componentes. Por definición, esto significaría que desea averiguar cómo cambian los otros componentes de la matriz si varía un componente. Sin embargo, esto solo se define de forma única en el caso de SO(2), pero no para SO( norte > 2 ). Para ver esto más explícitamente, considere una rotación en 3D. Aquí tiene 3 ángulos, y si desea cambiar una entrada, en general hay diferentes posibilidades. Por supuesto, esto no es más que la afirmación de que SO( norte > 2 ) tiene más de un generador.

Por lo tanto, una forma más razonable (en mi humilde opinión) de derivar una matriz ortogonal es escribirla como

O = Exp ( T ) , donde   T   es antisimétrico
y diferenciar con los componentes de T de manera análoga a lo que cita para la diferenciación de matriz simétrica. Esto se puede aplicar de manera similar a todos los grupos de matrices, por ejemplo, para matrices unitarias T será anti-hermitano.

Solo para profundizar en su declaración de que la dependencia de la derivada es mala: podría derivar la fórmula para SO (2) también usando la parametrización

O = Exp ( θ T 1 ) = ( porque θ pecado θ pecado θ porque θ ) ,
donde T 0 es la matriz "unidad" antisimétrica. Después
O i j O k = O i j θ θ O k = O i j θ ( O k θ ) 1 .
Esto conduce al mismo resultado que el anterior ya que
O θ = ( pecado θ porque θ porque θ pecado θ ) .
Pero también está claro que el punto en el que se toma la derivada es importante.

En el problema que me interesa, desafortunadamente realmente necesito derivar con respecto a los elementos de la matriz. Y también necesito un método general, el caso O(N) es solo un ejemplo (que no es exactamente el que me interesa)