Motivación para los axiomas de derivadas covariantes en el contexto de la Relatividad General

Question

Motivación para los axiomas de derivadas covariantes en el contexto de la Relatividad General

Oro

En la Relatividad General, la idea de una derivada covariante en una variedad es bastante importante y generalmente se define mediante un conjunto de axiomas:

Dejar $M$ ser una variedad suave. Una derivada covariante $\nabla$ en $M$ es un mapa $\nabla$ que toma un campo vectorial $X$ y un $(r,s)$ -tensores $T$ para todos $r,s$ produciendo el $(r,s)$ tensor $\nabla_X T$ y satisfactoria:

$\nabla _X f = Xf,$ cuando $f\in \mathcal{C}^\infty(M)$ ,

$\nabla_X (T+S)=\nabla_X T + \nabla_X S$

$\nabla_X T(\omega, Y)=(\nabla_X T)(\omega,Y)+T(\nabla_X \omega, Y)+T(\omega, \nabla_X Y)$ y de la misma manera para todos $(r,s)$ -tensor

$\nabla_{f X+g Y}T = f\nabla_X T+g\nabla_Y T$

Sé que en contextos más generales, esta derivada covariante se puede recuperar de una conexión en un paquete principal.

Eso no es lo que estoy hablando aquí. Lo que estoy hablando aquí es exactamente esta definición de derivada covariante, generalmente la que se usa en la Relatividad General.

El problema es: la derivada covariante es muy importante en el contexto de la Relatividad General, sin embargo, la definición con estos axiomas es demasiado abstracta.

¿Hay alguna forma en la que podamos motivar esta definición en el contexto de la Relatividad General? O más en general, ¿hay alguna forma de motivar esta definición de derivada covariante desde el punto de vista de la Física?

Una vez más, podría aceptar los axiomas y seguir adelante, pero dado que esto es demasiado abstracto, y estoy tratando con física y no con matemáticas, me gustaría obtener un poco de motivación y comprensión si es posible.

Respuestas (3)

Motivación para los axiomas de derivadas covariantes en el contexto de la Relatividad General

RC Drost · Answer 1

Seguro. Permítanme comenzar con la historia hasta este punto (algún día la escribiré en algún punto central), para que podamos tener ejemplos salpicados hasta el final.

Lo esencial

Puntos y campos escalares

Así que empiezas con un conjunto de objetos. $\mathcal M,$ y en realidad no vamos a echar un vistazo a la estructura de los objetos en sí (excepto, quizás, por igualdad), así que simplemente los llamamos "puntos" para indicar que no nos importa su estructura interna. Como en la teoría de categorías, los trataremos como cajas negras y describiremos su estructura agregando un conjunto de funciones: en este caso, los campos escalares $\mathcal S \subseteq (\mathcal M \to \mathbb R),$ que queremos que sea "suave". Para obtener esta suavidad, reinterpretamos funciones $\mathbb R^k \to \mathbb R$ como funciones $(\mathcal M \to \mathbb R)^k\to(\mathcal M \to \mathbb R)$ aplicándolos "puntualmente". Permítanme señalar esta naturaleza dual con corchetes (lado del campo escalar) y paréntesis (lado de la función), formalmente

F [s_{1}, s_{2}, \dots s_{k}] = pag \mapsto F (s_{1} (pag), s_{2} (pag), \dots s_{k} (pag)),

$f[s_1, s_2, \dots s_k] = p\mapsto f\big(s_1(p), s_2(p), \dots s_k(p)\big),$ dónde

\mapsto

$\mapsto$ construye una función a partir de un símbolo (

p

$p$ ) y una expresión simbólica a la que se asigna (

f (\dots)

$f(\dots)$ ). No he visto un buen nombre para esta interpretación dual de estas funciones suaves: así, cuando una función suave en

C^{\infty} (R^{k}, R)

$C^\infty(\mathbb R^k, \mathbb R)$ se interpreta así, me gusta llamarlos

k

$k$ -functors porque hay un diagrama de categorías genial.

Así que tenemos un conjunto de puntos con otro conjunto $\mathcal S$ de campos escalares suaves definidos sobre él, y $\mathcal S$ está cerrado bajo $k$ -funtores para todos $k$ . Estos realmente hacen un montón de trabajo por adelantado; $\operatorname{plus}(a, b) = a + b$ y $\operatorname{times}(a, b) = a \cdot b$ son ambos 2-funtores y así bajo nuestro axioma que $\mathcal S$ está cerrado bajo $k$ -funtores (asignan $\mathcal S^k \to \mathcal S$ ) ambos son operaciones puntuales permitidas en campos escalares. Aún mejor: defina que un subconjunto de $\mathcal M$ está cerrado si es un núcleo para un campo en $\mathcal S$ o abierto si su complemento es cerrado, y tienes una topología natural: la multiplicación puntual da una operación de unión, la suma puntual de cuadrados da una intersección, y puedes permitir infinitas intersecciones y uniones finitas sin ningún problema. Usando funciones de choque, incluso puede probar que todos los campos escalares en $\mathcal S$ son mapas continuos a $\mathbb R$ en esta topología. Como ejemplo de este punto teórico: ahora podemos exigir que el espacio esté conectado, lo que en topología significa que "el espacio completo no es una unión de dos conjuntos abiertos disjuntos". Volviendo a las definiciones, primero reescribimos la afirmación en su complemento; si $A \cup B=\mathcal M$ con $A,B$ desarticular $\mathcal M - A$ estar abierto significa $B$ está cerrado. Entonces, de manera equivalente, no es la unión de dos conjuntos cerrados disjuntos. Así que axiomáticamente estamos diciendo que si $s_1 \cdot s_2 = 0$ es el campo cero (que debe existir porque es un $0$ -funtor!) entonces hay algún punto $p$ tal que $s_1(p) = s_2(p) = 0.$ Y esa es una buena propiedad porque estos campos escalares carecen de esta propiedad crucial a la que estamos tan acostumbrados, " $ab = 0$ implica $a=0$ o $b=0.$ Cada uno de los campos escalares puede ser cero en subconjuntos que no se superponen para multiplicarse y formar cero. Pero mientras el espacio esté conectado, al menos recuperamos algo similar.

Entonces, para ejemplos reales de campos escalares, en la superficie de la esfera los puntos son de hecho $\{(x, y, z) : x^2 + y^2 + z^2=1\},$ pero nos negamos a mirar dentro directamente. En cambio, comenzamos con campos escalares. $x,y,z$ que extraen estos componentes y se cierran sobre funciones suaves para obtener el conjunto completo de campos escalares. Por otro lado, digamos, $\theta$ (el ángulo azimutal, el ángulo polar, creo que está bien) no es un campo escalar suave válido, porque tiene esta desagradable discontinuidad que nos aleja de la topología obvia que nos gustaría usar. También puede ver que "localmente" esto se verá como $\mathbb R^2$ y tendrá conjuntos abiertos similares. Podríamos hacer un tratamiento similar con el toro, etc.

Los conjuntos de coordenadas superpuestas.

Entonces tenemos uno de nuestros axiomas más importantes: la afirmación de que alrededor de cualquier punto $p$ hay un conjunto abierto que contiene $p$ y $D$ campos escalares que pueden (a) usarse para distinguir puntos en ese conjunto abierto, y (b) pueden usarse para expandir campos escalares, de modo que cada campo escalar en ese conjunto abierto pueda expandirse como un $D$ -funtor de los campos de coordenadas. De nuevo, en la esfera, podemos usar los campos $x, y$ como nuestras coordenadas en los hemisferios norte o sur (que son conjuntos abiertos si no incluimos el ecuador: utilice una función de relieve en $z$ para ver esto). De manera similar, tenemos hemisferios superpuestos con respecto a $y$ y $z$ que no incluyen sus respectivos "ecuadores". Sin embargo, incluso si algún punto está en dos de estos ecuadores, podemos ver que no está en el tercero: cada punto tiene un conjunto abierto y dos campos de "coordenadas", y en ese subconjunto todos los campos escalares se pueden escribir como funciones $f(x, y)$ o lo que tienes. Esto significa $D=2$ y la esfera es bidimensional. Pan comido.

Campos vectoriales, campos tensoriales.

Ahora introducimos los campos vectoriales que son un conjunto $\mathcal V \subset (\mathcal S \to \mathcal S)$ obedeciendo la ley de Leibniz. Decir $f_{(m)}$ es la derivada parcial de $f$ (que es alguna función en $C^\infty(\mathbb R^k, \mathbb R)$ , mente) con respecto a su $m^\text{th}$ argumento. Esta ley de Leibniz dice que para cualquier $k$ -funtor $f,$

V F [s_{1}, s_{2}, s_{3}, \dots s_{k}] = \sum_{metro = 1}^{k} F_{(metro)} [s_{1}, \dots s_{k}] \cdot V s_{metro} .

$V f[s_1, s_2, s_3, \dots s_k] = \sum_{m=1}^k f_{(m)}[s_1, \dots s_k] ~\cdot~ V s_m.$ Si esto parece surgir de la nada, tenga en cuenta que en realidad está muy lógicamente relacionado con todo lo que dijimos anteriormente. El axioma de cierre no solo crea estas operaciones

\sum

$\sum$ y

\cdot

$\cdot$ , pero el axioma de coordenadas significa que ahora en algún conjunto abierto cada escalar

s

$s$ es en secreto un

D

$D$ -funtor

s [c_{1}, c_{2}, \dots c_{D}] .

$s[c_1, c_2, \dots c_D].$ Definir en este subconjunto los campos escalares

v_{i} = V c_{i}

$v_i = V c_i$ , ahora tienes directamente que

V s = \sum_{i = 1}^{D} v_{i} \cdot \partial_{i} s .

$V s = \sum_{i=1}^D v_i \cdot \partial_i s.$ Por eso es que estos mapas lineales de Leibniz son "campos vectoriales"; localmente son derivados direccionales de campos escalares. Pero, se definen geométricamente: no están definidos por estos componentes

v_{i},

$v_i,$ resultan ser representables de esa manera localmente. No es dificil ver eso

U + V

$U + V$ está bien definida o que

s V

$s V$ está bien definido, pero no es obvio

U \cdot V

$U \cdot V$ de la definición anterior. Sin embargo, hay un paréntesis de mentira:

[U, V] = U \circ V - V \circ U

$[U, V] = U \circ V - V\circ U$ debe ser Leibniz si ambos

U

$U$ y

V

$V$ son. (Además, este no es un "espacio vectorial" en el sentido matemático normal; es un "módulo". Esto se debe a que los campos escalares no son un "campo" en el sentido matemático normal: al igual que no se puede dividir por 0, no se puede dividir por un campo escalar que es 0 en algunos lugares, por lo que falla un axioma [la existencia de inversos multiplicativos para cada elemento distinto de cero].)

Una vez que tenemos campos vectoriales, tenemos campos covectoriales (llamemos a esto $\bar {\mathcal V}$ ), los mapas lineales $\mathcal V \to \mathcal S$ . y luego podemos introducir el $[a, b]$ campos tensoriales como los mapas multilineales de $(\mathcal V^m, \bar {\mathcal V}^n) \to \mathcal S.$ Llama esto $\mathcal V_m^n$ para números naturales $m, n.$ Ahora hay una versión geométrica de la notación de Einstein, donde simplemente creamos muchas copias de este espacio tensorial. $\mathcal V_m^n$ y anotarlo con una nueva letra $\mathcal T$ más $n$ símbolos superiores distintos y $m$ símbolos inferiores mutuamente distintos. También anotamos cualquier residente de uno de estos espacios con los símbolos correspondientes, y es posible que necesitemos especificar esos símbolos para que estén en un orden dependiente del tensor (es decir, no todos los tensores son simétricos). Los productos externos se definen de forma obvia, por ejemplo, un mapa de $\mathcal T^a \times \mathcal T^b \to \mathcal T^{ab}$ . Según recuerdo, necesitamos un axioma adicional que diga que todo tensor en, digamos, $\mathcal T^{abc}_{de}$ puede escribirse como una suma de productos externos de términos en $\mathcal T^a \times \mathcal T^b \times \mathcal T^c \times T_d \times T_e,$ pero esto es (si no me falla la memoria) aparentemente una consecuencia de la paracompacidad o la existencia de la métrica o algo así. El punto es que cada tensor es oficialmente "cualquier mapa multilineal de vectores y covectores a escalares", pero en secreto es una suma finita de productos externos de vectores y covectores.

De todos modos, la razón por la que este último axioma es importante es que te permite hacer contracciones de índice : expandir en términos de la suma finita, luego puedes aplicar uno de los términos de $\bar {\mathcal V}$ al término correspondiente de $\mathcal V$ para obtener un campo escalar. Y como es de esperar, podemos simbolizar esto repitiendo un índice entre los vectores superior e inferior, para decir "estos se están uniendo". Entonces $v^{abc}_{bd}$ vive en $\mathcal T^{ac}_d$ y tiene una interpretación puramente geométrica, no hay "suma implícita" de "componentes".

En este punto también tenemos una operación de gradiente automático en campos escalares; $\nabla_\bullet s = V \mapsto V s$ mapea cualquier campo escalar a un campo covector. También presentamos el tensor métrico, un especial $[0, 2]$ y $[2, 0]$ tensor que contrae la identidad $[1,1]$ tensor y muestran una biyección especial entre campos covectoriales y campos vectoriales.

La conexión

Bien, una vez que tengamos toda esta historia, la pregunta obvia es si hay una generalización significativa de $\nabla_a$ a vectores, ya que está definido de forma única para escalares. Y la respuesta es: "Bueno, no es tan único, pero sí, en muchos casos existe".

Pero básicamente comenzamos con los axiomas. Por ejemplo, partimos de $\nabla_a v^b$ siendo significativo, y luego queremos generalizar a $\nabla_a (k v^b)$ con la regla de Leibniz, y encontramos que debe ser $v^b \nabla_a k + k \nabla_a v^b.$ Del mismo modo queremos $\nabla_a (u^b + v^b) = \nabla_a u^b + \nabla_a v^b$ como un requisito de linealidad directa. Nuestra definición de su acción sobre los covectores también es muy sencilla; Recuerda que la contracción $u_b u^b$ es un escalar, y esperamos $\nabla_a(u_b v^b) = u_b \nabla_a v^b + v^b\nabla_a u_b.$ Dado que los términos primero y segundo ya están bien definidos, simplemente definimos la acción de $\nabla_a$ en un covector como la diferencia de esos dos términos, y obtenemos esta ecuación gratis. Así que asumimos que existe alguna generalización de esta forma.

Todas tus ecuaciones se refieren a este operador. $\nabla_a.$ La conexión se ve fácilmente cuando recuerdas que $v^a (\nabla_a s)$ Se define como $V s$ por la definición geométrica del covector $\nabla_a.$ tu expresión $\nabla_V$ es por lo tanto equivalente a $v^a\nabla_a,$ y estamos generalizando $\nabla_a$ para operar en vectores por lo que tiene sentido que entonces $v^a \nabla_a$ también se generaliza. Su primer axioma es simplemente "la forma no generalizada todavía necesita hacer lo que hace el gradiente escalar, no se meta con eso, por favor". Su segundo axioma es "este es un operador lineal" y su tercer axioma es "este es un operador de Leibniz", y su cuarto es solo una consecuencia directa del hecho de que el $v^a$ el premultiplicador y la operación de contracción también son lineales en $v^a,$ o en otras palabras $\nabla_a$ mapas $\mathcal T^\bullet \to \mathcal T^\bullet_a.$

Una comprensión intuitiva de la degeneración.

La razón básica por la que esto no es único en general, tampoco es demasiado difícil de entender. El transporte paralelo de un escalar tiene sentido; si vas en la dirección de la pendiente esta va aumentando, en la dirección opuesta va disminuyendo, y es solo un número al final del día, así que puedes creer que siempre llegas al mismo número sin importar cómo camines . Pero el transporte paralelo de un vector es más difícil. Digamos que estoy en Kansas City en los EE. UU. y miro hacia el norte y estiro mi brazo derecho como un vector que apunta hacia el este. Ahora camino hacia el polo norte, estoy señalando hacia el sur (por supuesto que sí, todas las direcciones son hacia el sur desde el polo norte), más o menos hacia Madrid. Pero supongamos que primero doy un paso hacia el este, debería correr más o menos hacia Washington, DC: ahora, si camino hacia el norte hacia el polo, estaré apuntando a Roma. El camino que tome importa, y puede predecir aproximadamente que involucra 3 índices de tensor; hay algo allí sobre "estás tomando como entrada un campo vectorial y una dirección (que también es un campo vectorial) y dando como salida un nuevo campo vectorial" que parece relacionar 3 campos vectoriales diferentes, 2 como entrada y 1 como producción. En otras palabras, parece algo así como un $[1, 2]$ -campo tensor.

Hagamos esto formalmente con la geometría. Supongamos que tiene dos conexiones diferentes. $\nabla$ y $\nabla'$ . Forme el operador diferencia entre ellos,

Δ_{a} = \nabla_{a}^{'} - \nabla_{a} .

$\Delta_a = \nabla'_a - \nabla_a.$ Recuerde que ambos asignan campos escalares al mismo valor: ¡no había ambigüedad sobre ese campo de gradiente escalar! Entonces

Δ_{a} s = 0.

$\Delta_a s = 0.$ Pero eso significa algo muy poderoso, porque

Δ_{a}

$\Delta_a$ es Leibniz: significa que

Δ_{a} (s v^{b}) = s Δ_{a} v^{b}

$\Delta_a (s~v^b) = s~\Delta_a v^b$ . Entonces es un mapeo lineal de campos vectoriales a campos tensoriales. En particular, esto significa que

u^{a} Δ_{a}

$u^a \Delta_a$ mapea un campo vectorial a otro campo vectorial linealmente. Agregar un covector

w_{b}

$w_b$ y obtienes

u^{a} w_{b} Δ_{a} v^{b}

$u^a w_b \Delta_a v^b$ siendo un mapeo lineal de dos campos vectoriales

u, v

$u, v$ y un campo covector

w

$w$ a un escalar: y esa fue precisamente nuestra definición de un

[1, 2]

$[1, 2]$ campo tensorial. Entonces, de hecho, existe un tensor

D

$D$ tal que

u^{a} w_{b} Δ_{a} v^{b} = D_{a c}^{b} u^{a} v^{c} w_{b} .

$u^a w_b \Delta_a v^b = D_{ac}^b u^a v^c w_b.$ Ya que esto vale para todos

u, w

$u, w$ podemos eliminarlos y decir de manera equivalente,

\nabla_{a}^{'} v^{b} = \nabla_{a} v^{b} + D_{a C}^{b} v^{C} .

$\nabla'_a v^b = \nabla_a v^b + D_{ac}^b v^c.$ Y este argumento de que

D

$D$ necesita existir también se puede ejecutar hacia atrás, "supongamos que agregamos este término tensorial a

\nabla

$\nabla$ , luego obtenemos otra conexión." Así que esto es necesario y suficiente.

Luego, por supuesto, explotamos esta libertad para obtener un caso en el que $\nabla_a \nabla_b = \nabla_b \nabla_a$ y $\nabla_a g_{bc} = 0$ dónde $g$ es el tensor métrico, y esa es la conexión Levi-Civita. Pero esto ya es una respuesta muy larga. Te daré una pista: define $\Delta_{ab} = \nabla_a\nabla_b-\nabla_b\nabla_a$ y use una versión un poco más interesante del argumento anterior para argumentar que esto es en realidad una derivación de escalares y, por lo tanto, toma la forma $T^c_{ab} \nabla_c$ , este $T$ es el tensor de torsión. ¿Qué significa cambiar nuestra conexión agregando $D$ hacerle?

anónimo · Answer 2

Un enfoque no técnico o satisfactorio (incluso para mí), pero simple, es considerar primero las leyes físicas en espacios-tiempos planos. Allí, la derivada direccional de un tensor (con componentes $T^{\alpha\beta}$ a lo largo de un campo vectorial (con componentes $x^\mu$ ) tiene componentes $x^\mu\partial_\mu T^{\alpha \beta}$ . En espaciotiempos planos, este término se transforma como un tensor bajo las transformaciones de coordenadas que dejan invariante al tensor métrico (Minkowski), que son las transformaciones de Lorentz. son lineales, es decir ${\Lambda^\mu}_\nu\equiv\partial x^\mu/\partial x^\nu$ son constantes. Entonces

\begin{matrix} (1) & \partial_{m} ({Λ^{α}}_{v} {Λ^{β}}_{ρ} T^{v ρ}) = {Λ^{α}}_{v} {Λ^{β}}_{ρ} \partial_{m} T^{v ρ} . \end{matrix}

$\begin{equation}\partial_\mu({\Lambda^\alpha}_\nu\,{\Lambda^\beta}_\rho T^{\nu\rho})={\Lambda^\alpha}_\nu\,{\Lambda^\beta}_\rho\partial_\mu T^{\nu\rho}.\tag{1}\end{equation}$

Si ahora está interesado en escribir términos similares pero que conservan el carácter tensorial bajo transformaciones generales que dejan un tensor métrico general invariable, necesita un nuevo objeto (llamémoslo $\tilde\partial_\mu$ ) tal que:

(i) recupera la derivada ordinaria en un marco localmente inercial, ya que queremos que la relatividad general sea verdadera en situaciones sin gravedad, y

(ii) satisface en cualquier marco de referencia las mismas propiedades que satisface en marcos localmente inerciales. Esto implicaría linealidad y regla de Leibniz, lo habitual para las derivadas.

Claramente $\tilde\partial_\mu$ no puede ser igual a $\partial_\mu$ en cualquier marco de referencia, ya que en general las transformaciones de coordenadas las componentes ${\Lambda^\mu}_\nu$ dependen de las coordenadas, y (1) ya no es cierto. Puedes escribir $\tilde\partial_\mu=\partial_\mu+D_\mu$ , dónde $D_\mu$ es dependiente del tensor métrico, y $D_\mu=0$ en espaciotiempos planos. Ahora, supongo que imponer la compatibilidad de esta derivada con un tensor métrico daría que $D_\mu$ están relacionados con los símbolos habituales de Christoffer para la conexión Levi-Civita, y podría realizar el proceso inverso y obtener su definición libre de coordenadas e independiente del tensor métrico para la derivada covariante direccional que proporcionó en su pregunta.

En resumen, diría que solo quieres algo que se comporte como un derivado pero que su acción sobre un tensor también sea un tensor, ya que eso no sucede con el derivado ordinario.

Bence Racskó · Answer 3

Nota: Cuando originalmente escribí esta publicación, te leí mal y básicamente me perdí todo el asunto de que la motivación es "física". Sin embargo, pasé mucho tiempo escribiendo esta respuesta y no la eliminaré. Con suerte, esto será útil para usted, pero si no es para usted, entonces para otra persona que encuentre esta pregunta. Dicho esto, agregué una sección al final que brinda una motivación "física" para la derivada covariante. Esta sección está indicada por la oración inicial en negrita.

La motivación es que cuando pasa a una variedad en lugar de un espacio vectorial, pierde la capacidad de diferenciar campos tensoriales.

Si $T$ es un campo tensorial con componentes $T^{\mu_1...\mu_r}_{\nu_1...\nu_s}$ , entonces la derivada $\partial_\sigma T^{\mu_1...\mu_r}_{\nu_1...\nu_s}$ no se transforma como tensor. Las razones por las que esto es así suelen discutirse en la literatura.

Si queremos saltarnos cualquier definición axiomática de un operador diferencial, todavía tenemos algunas opciones. Una es darse cuenta de que la razón por la que falla la "diferenciación habitual" es porque un vector ubicado en $x$ es un elemento de $T_x M$ y un vector ubicado en $y$ es un elemento de $T_yM$ , estos son espacios vectoriales separados, la comparación es imposible.

Luego introducimos la noción de transporte paralelo. Si $\gamma:\mathbb{R}\rightarrow M$ es una curva suave, entonces sea $P_\gamma(t_1,t_0):T_{\gamma(t_0)}M\rightarrow T_{\gamma(t_1)}M$ Sea un mapa de transporte paralelo llamado propagador paralelo asociado con la curva. Mueve un vector situado en $T_{\gamma(t_0)}M$ a $T_{\gamma(t_1)}M$ .

Se necesitan algunos axiomáticos aquí:

Queremos que el transporte paralelo sea una transformación lineal.
Queremos que el transporte paralelo sea invertible.
Queremos $P_\gamma(t_0,t_0)=\text{Id}$ y $P_\gamma(t_1,t_0)^{-1}=P_\gamma(t_0,t_1)$ .
Queremos $P_\gamma(t_1,t')P_\gamma(t',t_0)=P_\gamma(t_1,t_0)$ .
Queremos $P_\gamma$ depender sin problemas de ambos $t_1$ y $t_0$ , y queremos " $P$ "depender tranquilamente de $\gamma$ , siendo este último bastante difícil de describir matemáticamente.

Una vez que tenemos esto, podemos definir lo siguiente: Si $V$ es un campo vectorial a lo largo $\gamma$ (rigurosamente hablando, es una "sección" de la forma $V:\mathbb{R}\rightarrow TM$ tal que $\pi\circ V=\gamma$ ), entonces definimos la derivada covariante de $V$ a lo largo de $\gamma$ en $t_0$ como

{\frac{d^{\nabla} V}{d t} |}_{t_{0}} = \underset{t \to t_{0}}{límite} \frac{{PAG}_{γ} (t_{0} + t, t_{0})^{- 1} V (t_{0} + t) - V (t_{0})}{t - t_{0}} .

$\left.\frac{d^\nabla V}{dt}\right|_{t_0}=\lim_{t\rightarrow t_0}\frac{P_\gamma(t_0+t,t_0)^{-1}V(t_0+t)-V(t_0)}{t-t_0}.$

Para evaluar este mapa explícitamente, necesitamos hacer algunas modificaciones.

Dejamos $(U,\psi)$ ser una carta local en el vecindario de $\gamma(t_0)=x$ , y denotamos las coordenadas como $x^\mu$ . Desde $P_\gamma(t_1,t_0)$ es una transformada lineal entre espacios de dimensión finita, se puede representar como una matriz, siempre que se elijan bases en ambos espacios vectoriales. La carta local nos da una base elegida, por lo que tenemos para $v=v^\mu\partial_\mu|_{\gamma(t_0)}$ , $P_\gamma(t_1,t_0)v=P_\gamma(t_1,t_0)^\mu_{\ \nu}v^\nu\ \partial_\mu|_{\gamma(t_1)}$ . Para asegurar eso $P$ asigna vectores invariantes a vectores invariantes, necesitamos el índice superior en $P$ representación matricial de para transformar como un vector en $\gamma(t_1)$ y el índice inferior para transformar como un vector en $\gamma(t_0)$ , entonces $P_\gamma(t_1,t_0)$ es esencialmente un tensor de dos puntos.

Las modificaciones reales suceden ahora. En lugar de considerar una sola curva $\gamma$ , considere un campo vectorial $X$ y su caudal $\phi^X$ , dónde $\phi^X(x_0,t)$ es la instrucción para moverse a lo largo de la curva integral que comienza en $x_0$ por el periodo de tiempo $t$ .

Dejar $P_X(x_0,t)$ denotar $P_\gamma(t,0)$ , dónde $\gamma$ es la curva integral que comienza en $x_0$ . Lo que realmente tenemos aquí son las siguientes dependencias: $P$ es en realidad una función compuesta en la forma $P_X=P\circ\phi^X$ , entonces tenemos $P_X(x_0,t)=P(\phi^X(x_0,t))$ . Si $P_X(x_0,t)^\mu_{\ \nu}$ es una representación matricial, tenemos

{\frac{d}{d t} |}_{t = 0} {PAG}_{X} (X_{0}, t)_{v}^{m} = {\frac{\partial {PAG}_{v}^{m}}{\partial (ϕ^{X})^{σ}} |}_{ϕ^{X} = ϕ^{X} (X_{0}, 0)} {\frac{d (ϕ^{X})^{σ}}{d t} |}_{X = X_{0}, t = 0} .

$\left.\frac{d}{dt}\right|_{t=0}P_X(x_0,t)^\mu_{\ \nu}=\left.\frac{\partial P^\mu_{\ \nu}}{\partial (\phi^X)^\sigma}\right|_{\phi^X=\phi^X(x_0,0)}\left.\frac{d(\phi^X)^\sigma}{dt}\right|_{x=x_0,t=0}.$

Esto es confuso porque casi toda la notación de derivadas es terrible en algunos aspectos, pero el flujo $\phi^X$ es siempre la identidad para $t=0$ , por lo que en realidad tenemos $\phi^X(x_0,0)=x_0$ , por lo que la primera derivada podría escribirse como $\partial P/\partial x_0^\sigma$ , lo cual es absolutamente terrible, porque $P$ no es algo que realmente dependa directamente de las posiciones, pero en aras de la legibilidad, lo escribiré de esa manera. Tenemos, entonces

\frac{\partial {PAG}_{v}^{m}}{\partial X^{σ}} X^{σ} (X_{0}),

$\frac{\partial P^\mu_{\ \nu}}{\partial x^\sigma}X^\sigma(x_0),$ ya que la derivada temporal del flujo es el propio campo vectorial.

Todo esto es necesario para finalmente poder tener, por un $V$ que no se extiende para definirse en una región abierta adecuada, en lugar de solo a lo largo de una curva,

{\frac{d^{\nabla} V}{d t} |}_{t = 0, X = X_{0}} = \nabla_{X} V |_{X = X_{0}} = \underset{t \to 0}{límite} \frac{{PAG}_{X} (X_{0}, t)^{- 1} V (ϕ^{X} (X_{0}, t)) - V (X_{0})}{t} = {\frac{d}{d t} |}_{t = 0} [{PAG}_{X} (X_{0}, t)^{- 1} V (ϕ^{X} (X_{0}, t))] .

$\left.\frac{d^\nabla V}{dt}\right|_{t=0,x=x_0}=\nabla_X V|_{x=x_0}=\lim_{t\rightarrow 0}\frac{P_X(x_0,t)^{-1}V(\phi^X(x_0,t))-V(x_0)}{t}=\left.\frac{d}{dt}\right|_{t=0}[P_X(x_0,t)^{-1}V(\phi^X(x_0,t))].$

Queremos expresar esto en términos de coordenadas locales. Antes de hacerlo notemos que si $A(t)$ es un $t$ -matriz dependiente que es invertible para todo $t$ arena $A(0)=I$ , entonces nosotros tenemos

\frac{d}{d t} (A^{- 1}) |_{t = 0} = - \frac{d}{d t} A |_{t = 0},

$\frac{d}{dt}(A^{-1})|_{t=0}=-\frac{d}{dt}A|_{t=0},$ puede verificarlo usted mismo diferenciando el

I = A (t) A^{- 1} (t)

$I=A(t)A^{-1}(t)$ expresión en cero.

También, nombramos a priori $\frac{\partial P^\mu_{\ \nu}}{\partial x^\sigma}$ como $-\Gamma^\mu_{\sigma\nu}$ .

Las expresiones de coordenadas locales siguen como

\nabla_{X} V |_{X = X_{0}} = {\frac{d}{d t} [{PAG}_{X} (X_{0}, t)^{- 1}_{v}^{m} V^{v} (ϕ^{X} (X_{0}, t))] |}_{t = 0} \partial_{m} |_{X_{0}} = = (\frac{\partial {PAG}^{- 1}_{v}^{m}}{\partial X^{σ}} X^{σ} (X_{0}) V^{v} (X_{0}) + d_{v}^{m} \frac{\partial V^{v}}{\partial X^{σ}} X^{σ}) \partial_{m} |_{X_{0}} = = (Γ_{σ v}^{m} X^{σ} V^{v} + \partial_{σ} V^{m} X^{σ}) \partial_{m},

$\nabla_XV|_{x=x_0}=\left.\frac{d}{dt}[\left.P_X(x_0,t)^{-1}\right.^\mu_{\ \nu}V^\nu(\phi^X(x_0,t))]\right|_{t=0}\ \partial_\mu|_{x_0}= \\ =\left(\frac{\partial \left.P^{-1}\right.^\mu_{\ \nu}}{\partial x^\sigma}X^\sigma(x_0)V^\nu(x_0)+\delta^\mu_\nu\frac{\partial V^\nu}{\partial x^\sigma}X^\sigma\right)\partial_\mu|_{x_0}= \\ = \left(\Gamma^\mu_{\sigma\nu}X^\sigma V^\nu+\partial_\sigma V^\mu X^\sigma\right)\partial_\mu,$ donde en la última línea todas las expresiones se evaluarán en

x_{0}

$x_0$ y en la línea media apareció el delta de Kronecker porque

P_{X}^{- 1}

$P_X^{-1}$ en

t = 0

$t=0$ es solo la identidad.

A partir de esta expresión, podemos leer todas las propiedades de la derivada covariante, por ejemplo, que es tensorial en $X$ y que todavía tiene sentido si $V$ sólo se define a lo largo de una curva.

Observaciones: Como puede ver, este enfoque es mucho más laborioso que definir un operador diferencial algebraico. Y mi declaración de que $P_X=P\circ\phi^X$ es en realidad algo dudoso. Es creíble, pero honestamente no sé cómo hacer esta derivación sin esta declaración "dudosa" o incluso hacerlo sin coordenadas. Las dependencias funcionales reales del propagador paralelo son extremadamente no triviales.

Pero este enfoque tiene la ventaja de que comenzamos con un concepto fácil de motivar de vectores paralelos que se trasladan a lo largo de las curvas, y la familiar derivada covariante quedó muy bien al final.

Si tiene curiosidad por motivar la derivada covariante de Levi-Civita , podemos agregar a la lista de requisitos del transporte paralelo que el transporte paralelo conserva las longitudes y ángulos de los vectores. Cuando define derivadas covariantes de tensores de rango arbitrario, este requisito implica naturalmente que el tensor métrico se transporta en paralelo a lo largo de todas las curvas. Sin embargo, la falta de torsión no se puede motivar tan fácilmente.

Sin embargo, esta motivación no se basó en ningún tipo de física, sino que traté de hacer intuitiva la derivada covariante comenzando por el hecho de que podemos transportar vectores paralelos en el espacio euclidiano, pero no en las variedades en general. Entonces, sabiendo qué propiedades tiene el buen transporte paralelo, lo pusimos a mano.

Si desea una motivación realmente física , lo mejor que podemos hacer es seguir a Weinberg y basar GR en el principio de equivalencia en lugar de la geometría de Riemann. Los dos son en realidad equivalentes porque el principio de equivalencia $\Longleftrightarrow$ Coordenadas normales de Riemann $\Longleftrightarrow$ La geometría de Riemann y las implicaciones son todas bidireccionales.

De acuerdo con el principio de equivalencia, alrededor de cualquier $x$ evento de espacio-tiempo es posible establecer coordenadas, para lo cual en $x$ y en su vecindad infinitesimal de primer orden, se aplican las leyes de la relatividad especial.

Dejar $\xi^0,...,\xi^3$ sean estas coordenadas especiales, y sean $x^0,...,x^3$ ser coordenadas completamente generales. Además, permita que los índices primos se refieran al sistema de coordenadas especial y que los índices no primos se refieran al sistema de coordenadas general.

Si $V^\mu$ es algún campo vectorial, entonces la expresión $\partial_\mu V^\nu$ es válido en relatividad especial, y solo contiene primeras derivadas, así que interpretemos que esta expresión se hace en el sistema de coordenadas especial en el punto $x$ , y escribimos como $\partial_{\mu'}V^{\nu'}$ . Por el principio de equivalencia, esta expresión es válida.

Introduzcamos la notación $\partial_{\mu'}V^{\nu'}=\nabla_{\mu'}V^{\nu'}$ para los índices primados, y sea $\nabla_\mu V^\nu$ significa el tensor - forma transformada de esta expresión en el sistema de coordenadas general, por lo que

\nabla_{m} V^{v} = \frac{\partial ξ^{m^{'}}}{\partial X^{m}} \frac{\partial X^{v}}{\partial ξ^{v^{'}}} \nabla_{m^{'}} V^{v^{'}} .

$\nabla_\mu V^\nu=\frac{\partial \xi^{\mu'}}{\partial x^\mu}\frac{\partial x^\nu}{\partial \xi^{\nu'}}\nabla_{\mu'}V^{\nu'}.$

Nos gustaría relacionar la expresión $\nabla_\mu V^\nu$ a las derivadas parciales de $V^\nu$ en el sistema general de coordenadas .

Tenga en cuenta que

\partial_{m} V^{v} = \frac{\partial ξ^{m^{'}}}{\partial X^{m}} \partial_{m^{'}} (\frac{\partial X^{v}}{\partial ξ^{v^{'}}} V^{v^{'}}) = \frac{\partial ξ^{m^{'}}}{\partial X^{m}} \frac{\partial^{2} X^{v}}{\partial ξ^{m^{'}} \partial ξ^{v^{'}}} V^{v^{'}} + \frac{\partial ξ^{m^{'}}}{\partial X^{m}} \frac{\partial X^{v}}{\partial ξ^{v^{'}}} \partial_{m^{'}} V^{v^{'}},

$\partial_\mu V^\nu=\frac{\partial \xi^{\mu'}}{\partial x^\mu}\partial_{\mu'}\left(\frac{\partial x^\nu}{\partial \xi^{\nu'}}V^{\nu'}\right)=\frac{\partial \xi^{\mu'}}{\partial x^\mu}\frac{\partial^2 x^\nu}{\partial \xi^{\mu'}\partial \xi^{\nu'}}V^{\nu'}+\frac{\partial \xi^{\mu'}}{\partial x^\mu}\frac{\partial x^\nu}{\partial \xi^{\nu'}}\partial_{\mu'}V^{\nu'},$ y aquí el segundo término de la RHS es esencialmente

\nabla_{μ} V^{ν}

$\nabla_\mu V^\nu$ , entonces restamos el primer término de la derecha de la expresión con la sustitución

V^{ν^{'}} = \frac{\partial ξ^{ν^{'}}}{\partial x^{σ}} V^{σ}

$V^{\nu'}=\frac{\partial\xi^{\nu'}}{\partial x^\sigma}V^\sigma$ .

Lo que obtenemos es

\nabla_{m} V^{v} = \partial_{m} V^{v} - \frac{\partial^{2} X^{v}}{\partial ξ^{m^{'}} \partial ξ^{v^{'}}} \frac{\partial ξ^{m^{'}}}{\partial X^{m}} \frac{\partial ξ^{v^{'}}}{\partial X^{σ}} V^{σ} = \partial_{m} V^{v} + Γ_{m σ}^{v} V^{σ},

$\nabla_\mu V^\nu=\partial_\mu V^\nu -\frac{\partial^2x^\nu}{\partial\xi^{\mu'}\partial\xi^{\nu'}}\frac{\partial\xi^{\mu'}}{\partial x^\mu}\frac{\partial\xi^{\nu'}}{\partial x^\sigma}V^\sigma=\partial_\mu V^\nu+\Gamma^\nu_{\mu\sigma}V^\sigma,$ donde nombramos

Γ_{m σ}^{v} = - \frac{\partial^{2} X^{v}}{\partial ξ^{m^{'}} \partial ξ^{v^{'}}} \frac{\partial ξ^{m^{'}}}{\partial X^{m}} \frac{\partial ξ^{v^{'}}}{\partial X^{σ}} .

$\Gamma^\nu_{\mu\sigma}=-\frac{\partial^2x^\nu}{\partial\xi^{\mu'}\partial\xi^{\nu'}}\frac{\partial\xi^{\mu'}}{\partial x^\mu}\frac{\partial\xi^{\nu'}}{\partial x^\sigma}.$

Notas:

Todas las expresiones se evalúan en el punto elegido $x$ , ya que estas coordenadas especiales son solo "relativistas especiales" en ese punto.
Este razonamiento es más "físico", porque el principio de equivalencia es esencialmente el principal postulado físico detrás de GR.
Este enfoque tiene la ventaja de que la derivada covariante es inmediatamente sin torsión y compatible con la métrica, sin embargo, tiene la desventaja de que no existe una expresión de forma cerrada para los símbolos de Christoffel que solo hacen referencia al sistema de coordenadas general. Esto se puede remediar utilizando la condición de compatibilidad métrica para derivar la expresión habitual para $\Gamma$ .

Motivación para los axiomas de derivadas covariantes en el contexto de la Relatividad General

Oro

Respuestas (3)

RC Drost

Lo esencial

Puntos y campos escalares

Los conjuntos de coordenadas superpuestas.

Campos vectoriales, campos tensoriales.

La conexión

Una comprensión intuitiva de la degeneración.

anónimo

Bence Racskó

¿Es un campo tensor métrico lo mismo que ds²=−dt²+dx²+dy²+dz²ds²=−dt²+dx²+dy²+dz²ds² = -dt² + dx²+ dy² + dz²?

¿Por qué la derivada covariante del tensor métrico es cero?

Intuición detrás de los operadores diferenciales como vectores base de una variedad (espacio-tiempo)

¿Cuándo podemos aumentar índices más bajos en "no tensores" como se describe en el libro de Dirac Teoría general de la relatividad?

¿Las derivadas parciales contravariantes y covariantes conmutan en GR?

¿Cuál es el significado físico de la conexión y el tensor de curvatura?

Derivada covariante de un tensor covariante con superíndice

Significado geométrico del transporte paralelo

Derivada covariante de una derivada covariante

Derivadas covariantes de tétradas nulas