¿Por qué necesitamos una métrica para definir el gradiente?

Para mí, el gradiente de un campo escalar (por ejemplo, en tres dimensiones) es simplemente (formalmente)

F = ( F X , F y , F z ) .

¿De qué manera necesitamos una métrica?

Pero algunas personas me dijeron que solo en una variedad de Riemann (con una métrica) podemos definir el gradiente.

Diría que es un poco exagerado decir que necesita una métrica para definir el gradiente de un escalar. Incluso si está trabajando con una variedad suave que no tiene una noción definida de métrica, las derivadas parciales i están bien definidos; en cada punto forman la base del espacio tangente generado por el sistema dado de coordenadas locales. Sin embargo, si desea la noción de un operador de derivada covariante que puede actuar no solo en campos escalares, sino también en campos vectoriales y tensoriales de mayor rango, entonces necesita una conexión, y se puede generar dicha conexión a través de una métrica.
@joshphysics: su comentario es engañoso: si queremos definir un campo vectorial dual al diferencial (que es lo que es el gradiente), debemos especificar un isomorfismo entre los espacios tangente y cotangente porque no hay uno canónico; una métrica (o más generalmente, cualquier forma bilineal no degenerada) hace precisamente eso; las derivadas covariantes no entran en escena: la derivada covariante de una función es la simple y antigua diferencial
@Christoph Estoy completamente de acuerdo en que si queremos definir el gradiente como un campo vectorial, entonces necesitamos el isomorfismo tangente-cotangente para hacerlo y que la métrica proporciona un método natural para generarlo. Sin embargo, estoy acostumbrado a pensar en el gradiente como el diferencial en sí mismo, no como su dual. Habiendo dicho esto, hice una búsqueda bibliográfica y creo que es más común que el gradiente se defina como el campo vectorial correspondiente, por lo que me inclino a aceptar que mi comentario es un poco engañoso.
Creo que una simple observación puede aclarar mucho: tenga en cuenta que la fórmula para el gradiente en coordenadas cartesianas frente a coordenadas esféricas es completamente diferente. Si te dijeran que calcularas el gradiente, ¿cómo sabrías en qué coordenadas estás trabajando para usar la fórmula correcta? La métrica es lo que te diría.

Respuestas (7)

En cualquier variedad podemos definir el diferencial d F de un escalar F . El diferencial es una forma 1 : algo que come vectores y escupe escalares, o incluso menos formalmente, algo con un índice hacia abajo. Tenemos la siguiente fórmula para el diferencial,

d F = F X i d X i
(suma sobre i implícito). Puede escribirlo en notación de índice como
( d F ) m = F X m .

Si por gradiente te refieres a un campo vectorial , entonces para convertir formas 1 en campos vectoriales, necesitas algo para "elevar el índice". Ahí es donde entra la métrica.

El punto principal del gradiente es tener la siguiente ecuación:

d F ( v ) = F , v
para cada vector v del espacio tangente donde , es la métrica.

En coordenadas locales ( X i ) , utilizando la notación de Einstein, el producto escalar de v = v i X i y w = w j X j Se puede escribir como:

v , w = gramo i j v i w j

el diferencial de F es d F = F X i d X i (nótese que es independiente de la métrica) así que si escribimos v = v j X j tenemos:

d F ( v ) = F X i d X i ( v ) = F X i d X i ( v j X j ) = F X i v j d X i ( X j ) = F X i v j d j i = F X i v i

Por otra mano, F , v = gramo i j ( F ) i v j , donde ya que queremos F siendo un vector escribimos F = ( F ) i X i .

Observamos ahora que si establecemos ( F ) i = gramo i j j F (dónde gramo i j es el inverso de la métrica y j F = F X j ) tenemos:

F , v = gramo i j ( F ) i v j = gramo i j gramo i k k F v j = d j k k F v j = j F v j = F X i v i = d F ( v )

que es lo que queríamos.

Ahora está claro que el gradiente de F depende de la métrica ya que usamos el inverso de la métrica para definirlo.

Se trata de hacer que las cosas sean independientes de las coordenadas. En la base estándar ortonormal del espacio euclidiano { mi i } , el gradiente dice

F = i F X i mi i
Ahora, elija un conjunto diferente de coordenadas X = ϕ ( X ) . Entonces nosotros tenemos
F = F ϕ
y por lo tanto
F X i = j F X j ϕ j X i
así como
mi i = k ϕ k X i mi k
lo cual es algo no obvio.

Poniendo estos juntos, terminamos con

F = i j k ϕ j X i ϕ k X i F X j mi k

Esto se puede escribir de forma invariable.

F = i j gramo i j F X i mi j = i j gramo i j F X i mi j
dónde
gramo i j = d i j
es la métrica euclidiana en el espacio cotangente y
gramo i j = k yo ϕ i X k ϕ j X yo gramo k yo
su transformada.

Tenga en cuenta que, en contraste con el gradiente, el diferencial ya es invariante de forma

d F = i F X i d X i = i F X i d X i
independiente de cualquier métrica.

Esto conduce a la definición libre de coordenadas del gradiente en términos de la métrica gramo en el espacio tangente

F gramo = d F

R 3 es una variedad de Riemann con métrica diagnóstico ( 1 , 1 , 1 ) , y en esta variedad con la métrica especificada, el gradiente toma la forma que le has dado. Con una variedad más general, la derivada compatible con la métrica tiene términos adicionales dados por los símbolos de Christoffel, pero el gradiente de un campo escalar seguirá estando dado por las derivadas parciales.

Me parece más simple definir primero la derivada total, ya que es independiente de la métrica y noto que es un operador lineal que asigna diferenciales a diferenciales:

tu = ϕ ( X ) , d tu = ϕ ( X ) [ d X ]
Teniendo en cuenta que el diferencial d X es simplemente un vector (diferencia en los vectores de posición). La derivada, ϕ en X es un funcional lineal, un mapeo de un vector a un escalar. Por lo tanto, es un elemento del espacio dual. X , y se llama vector dual.

Para definirlo en términos de componentes invocamos derivadas parciales:

ϕ ( X ) : d X ϕ X d X + ϕ y d y +
En palabras: ϕ es el mapeo funcional lineal de los vectores base: i ^ a X ϕ y ȷ ^ a y ϕ y k ^ a z ϕ . (o algo similar en otras coordenadas).

Si bien esta derivada como operador no es en sí misma un vector sino un vector dual, el teorema de representación de Reisz dice que (en dimensiones finitas) cualquier vector dual puede expresarse tomando el producto interno (punto) (que es la métrica) con respecto a un vector único.

ξ X , tu : ξ ( v ) = tu v

En particular, el vector que hace esto para el funcional derivado total es el vector gradiente.

ϕ ( X ) [ d X ] = ϕ d X

Entonces, la respuesta a su pregunta es que para pasar de la derivada (independiente de la métrica) al gradiente, debemos invocar la métrica. En forma de componentes (suma de índices repetidos):

ϕ = gramo m v ϕ X m mi v
Las coordenadas tienen índices elevados para contraerse con los índices inferiores de la base de la que son coeficientes. Así, las derivadas parciales tienen índices reducidos que deben elevarse (por la métrica) para volver a contraerse con los vectores base.

Y finalmente, cuando miras lo que sucede bajo el cambio general de bases y el cambio de sistemas de coordenadas, las derivadas parciales no se transforman como componentes de un vector pero las derivadas parciales cuando se contraen con la métrica sí se transforman.

No soy físico y no soy bueno con los tecnicismos de tensores, pero tenía el deseo de comprender este problema, ya que me encontré con la métrica de Fisher Information en el campo de la geometría de la información.

Así que aquí hay una perspectiva muy informal que conecta esto con un procedimiento de álgebra lineal súper básico. Creo que es más o menos correcto en espíritu y definitivamente me ayudó a entender esto.

Esto toma prestadas algunas ideas de la serie de cálculo tensorial de MathTheBeautiful. Recomendaría su video sobre la base de la covariante si no está familiarizado con él.

Dejar F ser una función definida en algún espacio independiente de coordenadas "geométricas en bruto". Dejar R denote un vector en este espacio. Entonces F ( R ) es el valor de F en el punto del espacio R . Podríamos pensar en el "gradiente verdadero" (quizás abusando de la notación) como d F d R . Este gradiente es el vector tal que el producto interno de otro vector v en el espacio con d F d R le da la derivada direccional (es decir, la parte lineal del aumento de F en la dirección de v con "velocidad" proporcional a la magnitud de v ).

Digamos que tenemos un sistema de coordenadas aleatorio [ s , t , tu ] . La base covariante es el conjunto de derivadas de un vector de posición R en el espacio geométrico con respecto a cada coordenada.

Entonces, en algún punto de evaluación en nuestro espacio, la base covariante será d R d s , d R d t , d R d tu

El objetivo es tomar los parciales de nuestra función. F escribir nuestras coordenadas ( F s , F t , F tu ) con los que comenzamos, y los usamos para obtener coeficientes para nuestra base (covariante) para que podamos expresar el gradiente en la base.

Por definición del gradiente (o podría pensar en la regla de la cadena), cada derivada parcial es el producto interno del vector base correspondiente con el gradiente, F s = d F d R d R d s .

Esto tiene sentido. La escritura parcial s es la derivada direccional de F en la dirección de d R d s , ya que esa es la dirección en la que te mueves cuando aumentas s .

Ahora, lo que probablemente sea una notación realmente abusiva. Dejar B sea ​​la matriz con la base covariante como vectores columna. Entonces podemos expresar el "vector" de parciales de la siguiente manera

( F s F t F tu ) = B T d F d R

Solo estamos multiplicando matrices B T por el gradiente para obtener la "lista" de productos internos discutidos anteriormente.

Supongamos que podemos expresar el gradiente en nuestra base (después de todo, nuestro objetivo final). En realidad, no sabemos cuáles serían los coeficientes, pero los escribiremos como incógnitas e intentaremos recuperar los coeficientes. Suponer

d F d R = a d R d s + b d R d t + C d R d tu = B ( a b C )

Ahora sustituyamos la expresión de la extrema derecha en la ecuación anterior para los parciales.

( F s F t F tu ) = B T B ( a b C )

Nota B T B es el tensor métrico. Es la matriz de todos los productos internos por pares de nuestros vectores base covariantes. Y debería ser invertible. Así que para recuperar a , b , y C , simplemente multiplicamos ambos lados por ( B T B ) 1 .

( B T B ) 1 ( F s F t F tu ) = ( a b C )

El verdadero gradiente es alguna combinación lineal particular de nuestros vectores base covariantes. Las derivadas parciales wrt coordenadas son cada uno de los respectivos vectores base punteados con esta combinación lineal. Ahí es donde el tensor métrico, la matriz de productos internos por pares de la base covariante, B T B viene de. Para recuperar los coeficientes de esta combinación lineal, tenemos que "invertir" el B T B .

Si por la palabra "gradiente" te refieres a la forma 1 cuyos componentes son

a ϕ
entonces no necesita una métrica para definir un gradiente. Si por la palabra "gradiente" se refiere al campo vectorial asociado cuyos componentes son
gramo a m m ϕ
entonces necesita una métrica (o alguna otra herramienta para mapear desde el espacio cotangente al espacio tangente) para definir un gradiente. Declaraciones similares se aplican a a ϕ y a ϕ .

(Esto repite la respuesta de Robin Ekman; mi objetivo es aclarar).