En la Relatividad General, la idea de una derivada covariante en una variedad es bastante importante y generalmente se define mediante un conjunto de axiomas:
Dejar ser una variedad suave. Una derivada covariante en es un mapa que toma un campo vectorial y un -tensores para todos produciendo el tensor y satisfactoria:
- cuando ,
- y de la misma manera para todos -tensor
Sé que en contextos más generales, esta derivada covariante se puede recuperar de una conexión en un paquete principal.
Eso no es lo que estoy hablando aquí. Lo que estoy hablando aquí es exactamente esta definición de derivada covariante, generalmente la que se usa en la Relatividad General.
El problema es: la derivada covariante es muy importante en el contexto de la Relatividad General, sin embargo, la definición con estos axiomas es demasiado abstracta.
¿Hay alguna forma en la que podamos motivar esta definición en el contexto de la Relatividad General? O más en general, ¿hay alguna forma de motivar esta definición de derivada covariante desde el punto de vista de la Física?
Una vez más, podría aceptar los axiomas y seguir adelante, pero dado que esto es demasiado abstracto, y estoy tratando con física y no con matemáticas, me gustaría obtener un poco de motivación y comprensión si es posible.
Seguro. Permítanme comenzar con la historia hasta este punto (algún día la escribiré en algún punto central), para que podamos tener ejemplos salpicados hasta el final.
Así que empiezas con un conjunto de objetos. y en realidad no vamos a echar un vistazo a la estructura de los objetos en sí (excepto, quizás, por igualdad), así que simplemente los llamamos "puntos" para indicar que no nos importa su estructura interna. Como en la teoría de categorías, los trataremos como cajas negras y describiremos su estructura agregando un conjunto de funciones: en este caso, los campos escalares que queremos que sea "suave". Para obtener esta suavidad, reinterpretamos funciones como funciones aplicándolos "puntualmente". Permítanme señalar esta naturaleza dual con corchetes (lado del campo escalar) y paréntesis (lado de la función), formalmente
Así que tenemos un conjunto de puntos con otro conjunto de campos escalares suaves definidos sobre él, y está cerrado bajo -funtores para todos . Estos realmente hacen un montón de trabajo por adelantado; y son ambos 2-funtores y así bajo nuestro axioma que está cerrado bajo -funtores (asignan ) ambos son operaciones puntuales permitidas en campos escalares. Aún mejor: defina que un subconjunto de está cerrado si es un núcleo para un campo en o abierto si su complemento es cerrado, y tienes una topología natural: la multiplicación puntual da una operación de unión, la suma puntual de cuadrados da una intersección, y puedes permitir infinitas intersecciones y uniones finitas sin ningún problema. Usando funciones de choque, incluso puede probar que todos los campos escalares en son mapas continuos a en esta topología. Como ejemplo de este punto teórico: ahora podemos exigir que el espacio esté conectado, lo que en topología significa que "el espacio completo no es una unión de dos conjuntos abiertos disjuntos". Volviendo a las definiciones, primero reescribimos la afirmación en su complemento; si con desarticular estar abierto significa está cerrado. Entonces, de manera equivalente, no es la unión de dos conjuntos cerrados disjuntos. Así que axiomáticamente estamos diciendo que si es el campo cero (que debe existir porque es un -funtor!) entonces hay algún punto tal que Y esa es una buena propiedad porque estos campos escalares carecen de esta propiedad crucial a la que estamos tan acostumbrados, " implica o Cada uno de los campos escalares puede ser cero en subconjuntos que no se superponen para multiplicarse y formar cero. Pero mientras el espacio esté conectado, al menos recuperamos algo similar.
Entonces, para ejemplos reales de campos escalares, en la superficie de la esfera los puntos son de hecho pero nos negamos a mirar dentro directamente. En cambio, comenzamos con campos escalares. que extraen estos componentes y se cierran sobre funciones suaves para obtener el conjunto completo de campos escalares. Por otro lado, digamos, (el ángulo azimutal, el ángulo polar, creo que está bien) no es un campo escalar suave válido, porque tiene esta desagradable discontinuidad que nos aleja de la topología obvia que nos gustaría usar. También puede ver que "localmente" esto se verá como y tendrá conjuntos abiertos similares. Podríamos hacer un tratamiento similar con el toro, etc.
Entonces tenemos uno de nuestros axiomas más importantes: la afirmación de que alrededor de cualquier punto hay un conjunto abierto que contiene y campos escalares que pueden (a) usarse para distinguir puntos en ese conjunto abierto, y (b) pueden usarse para expandir campos escalares, de modo que cada campo escalar en ese conjunto abierto pueda expandirse como un -funtor de los campos de coordenadas. De nuevo, en la esfera, podemos usar los campos como nuestras coordenadas en los hemisferios norte o sur (que son conjuntos abiertos si no incluimos el ecuador: utilice una función de relieve en para ver esto). De manera similar, tenemos hemisferios superpuestos con respecto a y que no incluyen sus respectivos "ecuadores". Sin embargo, incluso si algún punto está en dos de estos ecuadores, podemos ver que no está en el tercero: cada punto tiene un conjunto abierto y dos campos de "coordenadas", y en ese subconjunto todos los campos escalares se pueden escribir como funciones o lo que tienes. Esto significa y la esfera es bidimensional. Pan comido.
Ahora introducimos los campos vectoriales que son un conjunto obedeciendo la ley de Leibniz. Decir es la derivada parcial de (que es alguna función en , mente) con respecto a su argumento. Esta ley de Leibniz dice que para cualquier -funtor
Una vez que tenemos campos vectoriales, tenemos campos covectoriales (llamemos a esto ), los mapas lineales . y luego podemos introducir el campos tensoriales como los mapas multilineales de Llama esto para números naturales Ahora hay una versión geométrica de la notación de Einstein, donde simplemente creamos muchas copias de este espacio tensorial. y anotarlo con una nueva letra más símbolos superiores distintos y símbolos inferiores mutuamente distintos. También anotamos cualquier residente de uno de estos espacios con los símbolos correspondientes, y es posible que necesitemos especificar esos símbolos para que estén en un orden dependiente del tensor (es decir, no todos los tensores son simétricos). Los productos externos se definen de forma obvia, por ejemplo, un mapa de . Según recuerdo, necesitamos un axioma adicional que diga que todo tensor en, digamos, puede escribirse como una suma de productos externos de términos en pero esto es (si no me falla la memoria) aparentemente una consecuencia de la paracompacidad o la existencia de la métrica o algo así. El punto es que cada tensor es oficialmente "cualquier mapa multilineal de vectores y covectores a escalares", pero en secreto es una suma finita de productos externos de vectores y covectores.
De todos modos, la razón por la que este último axioma es importante es que te permite hacer contracciones de índice : expandir en términos de la suma finita, luego puedes aplicar uno de los términos de al término correspondiente de para obtener un campo escalar. Y como es de esperar, podemos simbolizar esto repitiendo un índice entre los vectores superior e inferior, para decir "estos se están uniendo". Entonces vive en y tiene una interpretación puramente geométrica, no hay "suma implícita" de "componentes".
En este punto también tenemos una operación de gradiente automático en campos escalares; mapea cualquier campo escalar a un campo covector. También presentamos el tensor métrico, un especial y tensor que contrae la identidad tensor y muestran una biyección especial entre campos covectoriales y campos vectoriales.
Bien, una vez que tengamos toda esta historia, la pregunta obvia es si hay una generalización significativa de a vectores, ya que está definido de forma única para escalares. Y la respuesta es: "Bueno, no es tan único, pero sí, en muchos casos existe".
Pero básicamente comenzamos con los axiomas. Por ejemplo, partimos de siendo significativo, y luego queremos generalizar a con la regla de Leibniz, y encontramos que debe ser Del mismo modo queremos como un requisito de linealidad directa. Nuestra definición de su acción sobre los covectores también es muy sencilla; Recuerda que la contracción es un escalar, y esperamos Dado que los términos primero y segundo ya están bien definidos, simplemente definimos la acción de en un covector como la diferencia de esos dos términos, y obtenemos esta ecuación gratis. Así que asumimos que existe alguna generalización de esta forma.
Todas tus ecuaciones se refieren a este operador. La conexión se ve fácilmente cuando recuerdas que Se define como por la definición geométrica del covector tu expresión es por lo tanto equivalente a y estamos generalizando para operar en vectores por lo que tiene sentido que entonces también se generaliza. Su primer axioma es simplemente "la forma no generalizada todavía necesita hacer lo que hace el gradiente escalar, no se meta con eso, por favor". Su segundo axioma es "este es un operador lineal" y su tercer axioma es "este es un operador de Leibniz", y su cuarto es solo una consecuencia directa del hecho de que el el premultiplicador y la operación de contracción también son lineales en o en otras palabras mapas
La razón básica por la que esto no es único en general, tampoco es demasiado difícil de entender. El transporte paralelo de un escalar tiene sentido; si vas en la dirección de la pendiente esta va aumentando, en la dirección opuesta va disminuyendo, y es solo un número al final del día, así que puedes creer que siempre llegas al mismo número sin importar cómo camines . Pero el transporte paralelo de un vector es más difícil. Digamos que estoy en Kansas City en los EE. UU. y miro hacia el norte y estiro mi brazo derecho como un vector que apunta hacia el este. Ahora camino hacia el polo norte, estoy señalando hacia el sur (por supuesto que sí, todas las direcciones son hacia el sur desde el polo norte), más o menos hacia Madrid. Pero supongamos que primero doy un paso hacia el este, debería correr más o menos hacia Washington, DC: ahora, si camino hacia el norte hacia el polo, estaré apuntando a Roma. El camino que tome importa, y puede predecir aproximadamente que involucra 3 índices de tensor; hay algo allí sobre "estás tomando como entrada un campo vectorial y una dirección (que también es un campo vectorial) y dando como salida un nuevo campo vectorial" que parece relacionar 3 campos vectoriales diferentes, 2 como entrada y 1 como producción. En otras palabras, parece algo así como un -campo tensor.
Hagamos esto formalmente con la geometría. Supongamos que tiene dos conexiones diferentes. y . Forme el operador diferencia entre ellos,
Luego, por supuesto, explotamos esta libertad para obtener un caso en el que y dónde es el tensor métrico, y esa es la conexión Levi-Civita. Pero esto ya es una respuesta muy larga. Te daré una pista: define y use una versión un poco más interesante del argumento anterior para argumentar que esto es en realidad una derivación de escalares y, por lo tanto, toma la forma , este es el tensor de torsión. ¿Qué significa cambiar nuestra conexión agregando hacerle?
Un enfoque no técnico o satisfactorio (incluso para mí), pero simple, es considerar primero las leyes físicas en espacios-tiempos planos. Allí, la derivada direccional de un tensor (con componentes a lo largo de un campo vectorial (con componentes ) tiene componentes . En espaciotiempos planos, este término se transforma como un tensor bajo las transformaciones de coordenadas que dejan invariante al tensor métrico (Minkowski), que son las transformaciones de Lorentz. son lineales, es decir son constantes. Entonces
Si ahora está interesado en escribir términos similares pero que conservan el carácter tensorial bajo transformaciones generales que dejan un tensor métrico general invariable, necesita un nuevo objeto (llamémoslo ) tal que:
(i) recupera la derivada ordinaria en un marco localmente inercial, ya que queremos que la relatividad general sea verdadera en situaciones sin gravedad, y
(ii) satisface en cualquier marco de referencia las mismas propiedades que satisface en marcos localmente inerciales. Esto implicaría linealidad y regla de Leibniz, lo habitual para las derivadas.
Claramente no puede ser igual a en cualquier marco de referencia, ya que en general las transformaciones de coordenadas las componentes dependen de las coordenadas, y (1) ya no es cierto. Puedes escribir , dónde es dependiente del tensor métrico, y en espaciotiempos planos. Ahora, supongo que imponer la compatibilidad de esta derivada con un tensor métrico daría que están relacionados con los símbolos habituales de Christoffer para la conexión Levi-Civita, y podría realizar el proceso inverso y obtener su definición libre de coordenadas e independiente del tensor métrico para la derivada covariante direccional que proporcionó en su pregunta.
En resumen, diría que solo quieres algo que se comporte como un derivado pero que su acción sobre un tensor también sea un tensor, ya que eso no sucede con el derivado ordinario.
Nota: Cuando originalmente escribí esta publicación, te leí mal y básicamente me perdí todo el asunto de que la motivación es "física". Sin embargo, pasé mucho tiempo escribiendo esta respuesta y no la eliminaré. Con suerte, esto será útil para usted, pero si no es para usted, entonces para otra persona que encuentre esta pregunta. Dicho esto, agregué una sección al final que brinda una motivación "física" para la derivada covariante. Esta sección está indicada por la oración inicial en negrita.
La motivación es que cuando pasa a una variedad en lugar de un espacio vectorial, pierde la capacidad de diferenciar campos tensoriales.
Si es un campo tensorial con componentes , entonces la derivada no se transforma como tensor. Las razones por las que esto es así suelen discutirse en la literatura.
Si queremos saltarnos cualquier definición axiomática de un operador diferencial, todavía tenemos algunas opciones. Una es darse cuenta de que la razón por la que falla la "diferenciación habitual" es porque un vector ubicado en es un elemento de y un vector ubicado en es un elemento de , estos son espacios vectoriales separados, la comparación es imposible.
Luego introducimos la noción de transporte paralelo. Si es una curva suave, entonces sea Sea un mapa de transporte paralelo llamado propagador paralelo asociado con la curva. Mueve un vector situado en a .
Se necesitan algunos axiomáticos aquí:
Una vez que tenemos esto, podemos definir lo siguiente: Si es un campo vectorial a lo largo (rigurosamente hablando, es una "sección" de la forma tal que ), entonces definimos la derivada covariante de a lo largo de en como
Para evaluar este mapa explícitamente, necesitamos hacer algunas modificaciones.
Dejamos ser una carta local en el vecindario de , y denotamos las coordenadas como . Desde es una transformada lineal entre espacios de dimensión finita, se puede representar como una matriz, siempre que se elijan bases en ambos espacios vectoriales. La carta local nos da una base elegida, por lo que tenemos para , . Para asegurar eso asigna vectores invariantes a vectores invariantes, necesitamos el índice superior en representación matricial de para transformar como un vector en y el índice inferior para transformar como un vector en , entonces es esencialmente un tensor de dos puntos.
Las modificaciones reales suceden ahora. En lugar de considerar una sola curva , considere un campo vectorial y su caudal , dónde es la instrucción para moverse a lo largo de la curva integral que comienza en por el periodo de tiempo .
Dejar denotar , dónde es la curva integral que comienza en . Lo que realmente tenemos aquí son las siguientes dependencias: es en realidad una función compuesta en la forma , entonces tenemos . Si es una representación matricial, tenemos
Esto es confuso porque casi toda la notación de derivadas es terrible en algunos aspectos, pero el flujo es siempre la identidad para , por lo que en realidad tenemos , por lo que la primera derivada podría escribirse como , lo cual es absolutamente terrible, porque no es algo que realmente dependa directamente de las posiciones, pero en aras de la legibilidad, lo escribiré de esa manera. Tenemos, entonces
Todo esto es necesario para finalmente poder tener, por un que no se extiende para definirse en una región abierta adecuada, en lugar de solo a lo largo de una curva,
Queremos expresar esto en términos de coordenadas locales. Antes de hacerlo notemos que si es un -matriz dependiente que es invertible para todo arena , entonces nosotros tenemos
También, nombramos a priori como .
Las expresiones de coordenadas locales siguen como
A partir de esta expresión, podemos leer todas las propiedades de la derivada covariante, por ejemplo, que es tensorial en y que todavía tiene sentido si sólo se define a lo largo de una curva.
Observaciones: Como puede ver, este enfoque es mucho más laborioso que definir un operador diferencial algebraico. Y mi declaración de que es en realidad algo dudoso. Es creíble, pero honestamente no sé cómo hacer esta derivación sin esta declaración "dudosa" o incluso hacerlo sin coordenadas. Las dependencias funcionales reales del propagador paralelo son extremadamente no triviales.
Pero este enfoque tiene la ventaja de que comenzamos con un concepto fácil de motivar de vectores paralelos que se trasladan a lo largo de las curvas, y la familiar derivada covariante quedó muy bien al final.
Si tiene curiosidad por motivar la derivada covariante de Levi-Civita , podemos agregar a la lista de requisitos del transporte paralelo que el transporte paralelo conserva las longitudes y ángulos de los vectores. Cuando define derivadas covariantes de tensores de rango arbitrario, este requisito implica naturalmente que el tensor métrico se transporta en paralelo a lo largo de todas las curvas. Sin embargo, la falta de torsión no se puede motivar tan fácilmente.
Sin embargo, esta motivación no se basó en ningún tipo de física, sino que traté de hacer intuitiva la derivada covariante comenzando por el hecho de que podemos transportar vectores paralelos en el espacio euclidiano, pero no en las variedades en general. Entonces, sabiendo qué propiedades tiene el buen transporte paralelo, lo pusimos a mano.
Si desea una motivación realmente física , lo mejor que podemos hacer es seguir a Weinberg y basar GR en el principio de equivalencia en lugar de la geometría de Riemann. Los dos son en realidad equivalentes porque el principio de equivalencia Coordenadas normales de Riemann La geometría de Riemann y las implicaciones son todas bidireccionales.
De acuerdo con el principio de equivalencia, alrededor de cualquier evento de espacio-tiempo es posible establecer coordenadas, para lo cual en y en su vecindad infinitesimal de primer orden, se aplican las leyes de la relatividad especial.
Dejar sean estas coordenadas especiales, y sean ser coordenadas completamente generales. Además, permita que los índices primos se refieran al sistema de coordenadas especial y que los índices no primos se refieran al sistema de coordenadas general.
Si es algún campo vectorial, entonces la expresión es válido en relatividad especial, y solo contiene primeras derivadas, así que interpretemos que esta expresión se hace en el sistema de coordenadas especial en el punto , y escribimos como . Por el principio de equivalencia, esta expresión es válida.
Introduzcamos la notación para los índices primados, y sea significa el tensor - forma transformada de esta expresión en el sistema de coordenadas general, por lo que
Nos gustaría relacionar la expresión a las derivadas parciales de en el sistema general de coordenadas .
Tenga en cuenta que
Lo que obtenemos es
Notas:
Todas las expresiones se evalúan en el punto elegido , ya que estas coordenadas especiales son solo "relativistas especiales" en ese punto.
Este razonamiento es más "físico", porque el principio de equivalencia es esencialmente el principal postulado físico detrás de GR.
Este enfoque tiene la ventaja de que la derivada covariante es inmediatamente sin torsión y compatible con la métrica, sin embargo, tiene la desventaja de que no existe una expresión de forma cerrada para los símbolos de Christoffel que solo hacen referencia al sistema de coordenadas general. Esto se puede remediar utilizando la condición de compatibilidad métrica para derivar la expresión habitual para .