¿Las funciones hamiltoniana y lagrangiana son siempre convexas?

El hamiltoniano y el lagrangiano están relacionados por una transformada de Legendre:

H ( q , pags , t ) = i q ˙ i pags i L ( q , q ˙ , t ) .
Para que esto sea una transformación de Legendre, H debe ser convexo en cada pags i y L debe ser convexo en cada q ˙ i .

Por supuesto, este es el caso de ejemplos simples como una partícula en un pozo potencial o una partícula relativista que se mueve inercialmente. Sin embargo, no es obvio para mí que siempre será el caso de un sistema multicomponente arbitrario que utilice un conjunto complicado de coordenadas generalizadas.

Este es siempre el caso? Si es así, ¿hay algún argumento físico a partir del cual se pueda demostrar? O, alternativamente, ¿hay casos en los que estas restricciones de convexidad no se cumplan y, de ser así, qué sucede entonces?

Para un sistema de puntos de materia (generalmente restringidos) que interactúan con fuerzas conservativas (o fuerzas conservativas generalizadas que admiten un potencial generalizado tu ( t , q , q ˙ ) a lo sumo lineal en el q ˙ como para la interacción EM), el Lagrangiano toma siempre la forma h k A ( t , q ) h k q ˙ h q ˙ k + h k B ( t , q ) h q ˙ h + C ( t , q ) . Arriba A es una matriz simétrica estrictamente positiva. Esta función es convexa. La función hamiltoniana resultante también es convexa.
Un ejemplo de Lagrangiano no convexo es: L = 1 3 T 2 + 2 T V V 2 . No pude calcular el hamiltoniano asociado. Pero como es equivalente a: L = T V , no es realmente relevante. Y una pregunta relacionada sin respuestas: math.stackexchange.com/q/482553
@jinawee, por L = T 2 / 3 + 2 T V V 2 , los momentos canónicos serían pags k = 2 ( T / 3 + V ) T / q ˙ k y el hamiltoniano sería por lo tanto H = T 2 + 2 T V + V 2 = ( T + V ) 2 .
@AlexNelson ¿Cómo llegaste de H = 2 ( T / 3 + V ) T / q ˙ k q ˙ k T 2 / 3 2 T V + V 2 a su hamiltoniano final?
@jinawee, debo admitir que asumí q ˙ k T / q ˙ k = 2 T como de costumbre (resumiendo k , a la convención de suma de Einstein). Esto funciona en el entorno newtoniano, pero si uno intenta trabajar en (digamos) Relatividad especial, no estoy tan seguro de que produzca el mismo resultado...
Pregunta matemática.SE relacionada: math.stackexchange.com/q/212120/11127
@Qmechanic tenga en cuenta que una de las respuestas a esa pregunta relacionada es mía. Un lagrangiano no convexo implicaría un hamiltoniano de valores múltiples, y viceversa, por lo que todavía estoy un poco confundido por esto. (En el contexto clásico.)
Trate de entender su terminología. ¿Estás implicando, convexo: cóncavo ~ minimización: maximización de la densidad funcional?

Respuestas (3)

I) En el nivel clásico, no hay condición de convexidad. Si una acción es funcional S produce un principio de acción estacionario , por lo que la acción negativa S . (Bajo cambios de signo, una función convexa se convierte en una función cóncava y viceversa). O uno podría imaginar una teoría, que es convexa en una sección y cóncava en otro sector.

II) Del lado lagrangiano L ( q , v , t ) , es fácil encontrar un contraejemplo que muestre que no se puede exigir convexidad en las variables de posición q i ; o la variable tiempo t , para esa materia. (Para lo primero, piense, por ejemplo, en un potencial de sombrero mexicano). Entonces, como escribe OP, la convexidad puede afectar como máximo a las variables de velocidad v i en el lagrangiano; o las variables de momento pags i en el hamiltoniano H ( q , pags , t ) .

III) En la formulación hamiltoniana, es posible realizar una transformación canónica

( q i , pags j )     ( q i , PAGS j )   =   ( pags i , q j )

que mezcla variables de posición y momento. Desde una perspectiva hamiltoniana, no es natural imponer convexidad a la mitad de las variables canónicas pero no a la otra mitad.

IV) El Lagrangiano (densidad) puede modificarse con términos de divergencia total que no modifican las ecuaciones de Euler-Lagrange. Estos términos de divergencia total podrían, en principio, violar la convexidad.

V) La transformación de Legendre podría ser singular. De hecho, este es el punto de partida de la dinámica de restricciones. Esto sucede, por ejemplo, para la densidad lagrangiana de Maxwell

L   =   1 4 F m v F m v .
Ver, por ejemplo , esta publicación de Phys.SE.

VI) Mecánicamente cuántica, debemos exigir que el operador hamiltoniano sea autoadjunto y acotado por abajo, es decir, la teoría debe ser unitaria .

Perturbativamente, esto significa que el término cinético libre/cuadrático debe ser una forma (semi)positiva (y por lo tanto una función convexa). Los modos cero deben ser de calibre fijo. Los términos de interacción generalmente se tratan perturbativamente.

En conclusión, la convexidad no parece ser un primer principio per se, sino más bien una consecuencia del tipo de QFT que normalmente podemos entender. Podría ser que sea posible dar una definición no perturbativa de una teoría no convexa (pero unitaria).

Gracias, en su mayoría puedo darle sentido a eso. Amplio si pudiera darse el caso de que para cualquier hamiltoniano exista una transformación canónica que lo haga (positiva o negativamente) convexo en los momentos. Eso garantizaría que una combinación de transformación canónica y transformación de Legendre siempre podría ponerlo en forma lagrangiana.

De hecho, hay Lagrangianos no convexos y son un problema para la transformación de Legendre al hacerla de valor múltiple (de hecho, un Lagrangiano convexo pero no estrictamente convexo arrojará este problema). Si uno no puede deshacerse de este valor múltiple dividiendo el problema en "sectores" convexos y cóncavos (análisis por partes donde el dominio de interés está restringido, como en el primer párrafo de la respuesta de Qmecahnics ) o imponiendo restricciones, entonces se acabó el juego para el enfoque hamiltoniano. De hecho, el valor múltiple de la transformación de Legendre implica que la solución de la ecuación de Euler-Lagrange no es única. Me gustaría hablar de un famoso convexo, pero no estrictamente convexo .ejemplo de mi propio campo y lo que la gente hace con los problemas que plantea. Proporciona una ilustración interesante de las dificultades con la convexidad y cómo surgen ( es decir , como señala el OP, equivalen a valores múltiples de la transformación de Legendre) y también hay al menos dos soluciones comunes a este problema particular cuya adecuación es diferente para diferentes campos de la física! Su solución depende de lo que quiera lograr con su hamiltoniano.

Este es el cálculo de las geodésicas en una variedad (semi) riemanniana, de modo que:

(1) L = gramo ( X ) ( X ˙ , X ˙ ) = gramo i j ( X ) X ˙ i X ˙ j

Este es también el mismo problema que el cálculo de rayos del principio de tiempo mínimo de Fermat, si incluye información de densidad óptica (índice de refracción) en el tensor métrico. Por lo tanto, la óptica de rayos en un medio isotrópico es la geometría de una variedad conformemente plana (ya que gramo La matriz de en coordenadas cartesianas es el índice de refracción al cuadrado multiplicado por la identidad); los medios aniostrópicos dan una geometría más general.

Este ejemplo es históricamente importante, no solo para la Relatividad General, sino también porque la óptica de rayos, este mismo problema, fue el campo que despertó el interés de Hamilton en estos asuntos.


Lo malo y lo feo

El lagrangiano es convexo, pero no estrictamente . Considere la trayectoria lineal:

(2) σ ( t ) = t X ˙ 0

en el espacio tangente, es decir , donde uno se mueve escalando el vector tangente X ˙ 0 . En respuesta, el lagrangiano en (1) también se escala linealmente, por lo que el camino lineal se encuentra exactamente dentro del gráfico / en el borde del epígrafe del lagrangiano. Por lo tanto, el momento conjugado X ˙ L , siendo la de una sola forma:

(3) PAGS ( _ ) = gramo ( X ˙ , _ ) gramo ( X ˙ , X ˙ )

es independiente de t a medida que nuestro punto se mueve según (2) . De este modo PAGS es una función de muchos a uno en el espacio tangente en cualquier punto: cualquier punto en el espacio tangente de la forma t X 0 por t R tiene el mismo valor en (3). La transformación de Legendre no logra elegir un único PAGS para cada uno X ˙ . No es sorprendente, por lo tanto, que si uno hace la transformación de Legendre, obtiene:

(4) H = PAGS ( X ˙ ) L = gramo ( X ˙ , X ˙ ) gramo ( X ˙ , X ˙ ) L = 0 ¡¡DIOS MÍO!!

La transformación de Legendre en este caso es claramente muchos a uno (intenta decirlo en voz alta con cara seria).

Veamos esto de otra manera. Incluso la solución de la ecuación de Euler-Lagrange para el lagrangiano, además de desear una contraparte hamitoniana, en este problema es complicada (pero se puede hacer con cierto cuidado). La matriz hessiana del mapeo X ˙ PAGS = X ˙ L es:

(5) h i j = X ˙ i X ˙ j L = ( gramo ( X ˙ , X ˙ ) gramo i j gramo i k X ˙ k gramo j X ˙ ) L 3

Para nuestros propósitos, (5) es más transparente si lo ponemos en notación matricial (aquí GRAMO es la matriz del tensor métrico):

(6) H = GRAMO ( X T GRAMO X ) 3 2 ( i d X ˙ X ˙ T GRAMO X ˙ T GRAMO X ˙ )

El término más a la derecha entre paréntesis X ˙ X ˙ T GRAMO / ( X ˙ T GRAMO X ˙ ) se reconoce como el proyector sobre el vector de longitud unitaria paralelo a X ˙ , por lo que la matriz hessiana es singular en cada espacio tangente al espacio de configuración con núcleo dado por la línea { t X ˙ : t R } . Un múltiplo de escala de la matriz Hessiana es el coeficiente de X ¨ en la ecuación de Euler-Lagrange, mostrando que la ecuación de Euler-Lagrange tiene toda una familia de soluciones. Por último, podemos ver la integral de acción en sí misma y lo que le sucede cuando escalamos el parámetro de ruta τ . Supongamos que la acción se calcula en el intervalo τ [ 0 , 1 ] , e introducimos una transformación τ = ζ ( σ ) dónde σ es cualquier función suave con ζ ( 0 ) = 0 ; ζ ( 1 ) = 1 y escribe Y ( σ ) = X ( ζ ( σ ) ) , Y ˙ ( σ ) = d σ X ( ζ ( σ ) ) después:

(7) S = τ = 0 1 gramo ( X ˙ ( τ ) , X ˙ ( τ ) ) d τ = σ = 0 1 gramo ( Y ˙ ( σ ) d ζ d σ , Y ˙ ( σ ) d ζ d σ ) d ζ d σ d σ = τ = 0 1 gramo ( Y ˙ ( τ ) , Y ˙ ( τ ) ) d τ

Así si X ( τ ) es un camino extremal, entonces también lo es X ( ζ ( τ ) ) para cualquier función suave y monótona con ζ ( 0 ) = 0 ; ζ ( 1 ) = 1 . Intuitivamente, si conducimos de A a B por el camino más corto (o más largo), podemos hacerlo con cualquier gráfico de velocidad versus tiempo que elijamos, pero aun así hemos conducido por el camino extremo.

El flujo geodésico en el espacio tangente tiene múltiples líneas de flujo, de hecho, una hoja completa de líneas de flujo, entre dos puntos cualesquiera en el espacio de configuración; las preimágenes de la proyección sobre las geodésicas a través del espacio de configuración en cualquier punto dado son rayos de vectores tangentes, con la preimagen sobre cada punto en la geodésica que contiene vectores tangentes que son múltiplos de escala entre sí.


El bueno

Veamos la solución a este problema en geometría semi-riemanniana. Aquí hacemos un poco de trampa y extremamos la integral de acción:

(9) L = 0 1 gramo ( X ˙ , X ˙ ) d τ

es decir , ¡simplemente nos olvidamos de la raíz cuadrada! (Sospecho que esta loca idea se intentó originalmente por pura desesperación). Ahora miramos la desigualdad de Cauchy-Schwarz para una relación entre los lagrangianos "reales" y "tramposos":

(10) 0 1 gramo ( X ˙ , X ˙ ) 1 d τ 0 1 gramo ( X ˙ , X ˙ ) d τ 0 1 1 d τ = 0 1 gramo ( X ˙ , X ˙ ) , d τ

con igualdad si y solo si gramo ( X ˙ , X ˙ ) es constante Ya hemos visto que si X ( τ ) minimiza la integral más a la izquierda en (9), entonces también lo hace X ( ζ ( τ ) ) dónde ζ ( 0 ) = 0 ; ζ ( 1 ) = 1 . Entonces encontramos la función ζ ( τ ) lo que hace gramo ( Y ˙ , Y ˙ ) constante e igual a la velocidad media de X para la minimización X . Cauchy Schwarz satura para este caso, de modo que vemos que el mínimo de 0 1 gramo ( X ˙ , X ˙ ) 1 d τ es exactamente lo mismo que el mínimo de 0 1 gramo ( X ˙ , X ˙ ) 1 d τ , dado que el integrando es positivo. Por otro lado, si buscamos maximizar la acción (8), que es el caso de las geodésicas en una variedad lorentziana, simplemente seguimos adelante y maximizamos (9). Por "coincidencia", encontramos que la maximización ocurre cuando gramo ( X ˙ , X ˙ ) es constante, por lo que la sobrecota representada por (9) está saturada en este caso, por lo que hemos encontrado una de las soluciones que maximiza 0 1 gramo ( X ˙ , X ˙ ) 1 d τ además. Habiendo encontrado la única solución que minimiza el lado izquierdo de (1), podemos caracterizar todas las demás a través de una transformación τ = ζ ( σ ) con ζ ( 0 ) = 0 ; ζ ( 1 ) = 1 . O, en la Relatividad General, ignoramos todas las demás soluciones, porque postulamos que la física es aquella en la que el tiempo propio de un observador τ avanza uniformemente, la velocidad de cuatro es constante, la aceleración es Minkowski-ortogonal a la velocidad y τ es así afín. Así que en realidad obtenemos más que la forma de la ruta geodésica con este enfoque; también obtenemos una parametrización de ruta afín .

Así que ahora obtenemos fácilmente nuestra formulación hamiltoniana; si ponemos L = 1 2 gramo ( X ˙ , X ˙ ) entonces obtenemos PAGS = X ˙ ; pags k = gramo k j X ˙ j es simplemente el covector de X ˙ encontrado al bajar el índice de este último, y así tenemos:

(11) L = H = 1 2 gramo ( X ˙ , X ˙ ) = 1 2 gramo i j X ˙ i X ˙ j = 1 2 gramo ( PAGS , PAGS ) = 1 2 gramo i j pags i pags j

Ahora vemos otra razón por la cual esta loca solución es amada por los físicos: el lagrangiano y el hamiltoniano en (11) son los correspondientes a las formulaciones de la mecánica newtoniana para una partícula libre. Por lo tanto, esta es una analogía natural muy agradable cuando estamos pensando en una partícula que "flota" en un marco inercial. Se muestra fácilmente que la ecuación de Euler-Lagrange para (11) es X ¨ k + Γ i j k X ˙ i X ˙ j = 0 ; la analogía con una partícula libre hace que sea muy satisfactorio atestiguar que la segunda ley de Newton es gramo k j X j V = F k = metro ( X ¨ k + Γ i j k X ˙ i X ˙ j ) cuando uno pone un potencial V ( X ) en la mezcla. Es una analogía física completamente hermosa. Las ecuaciones de Hamilton para la geodésica son:

(12) X ˙ k = gramo k j pags j ; pags ˙ k = 1 2 ( X k gramo i j ) pags i pags j

La mayor parte del tiempo, esta solución también es perfectamente aceptable en óptica. Naturalmente, manejará todos los cálculos de rayos en medios no homogéneos sin problemas. En óptica, el parámetro afín correspondiente al tiempo propio en GR es la longitud del camino óptico, o el retardo de fase total a lo largo del camino.

Lo que parece una trampa al principio conduce a una solución que es muy elegante, suave y fácil y, para la Relatividad General y, de hecho, para la mayoría de la geometría, completamente completa.

Sin embargo, esta elegante solución tiene una propiedad incómoda en óptica cuando nos encontramos con interfaces abruptas entre medios dieléctricos, lo cual es una situación esencial para analizar cuando hablamos de lentes y espejos, por ejemplo. El enfoque hamiltoniano necesita un lagrangiano que sea al menos un C 2 funcion de X ˙ , cuya suposición se rompe en una interfaz tan abrupta. Bien, entonces usamos el enfoque hamiltoniano además de en la interfaz, y determinamos qué transformación funciona la interfaz en el estado del rayo. ( X , PAGS ) . Pero resulta que si hacemos esto, entonces la ley de Snell nos muestra que:

Las componentes transversales de los momentos ópticos son continuas a través de la interfaz, mientras que la componente normal necesariamente no lo es .

Es decir, la transformación en el estado óptico ( X , PAGS ) forjado por el paso del rayo a través de la interfaz abrupta no es un simplectomorfismo. Lo mismo ocurre con los espejos con este enfoque: X es continua a través de la interfaz, mientras que PAGS PAGS , por lo que el determinante de esta transformación lineal es -1 en tres dimensiones. La forma más sencilla de entender todo esto es notar que el hamiltoniano en (12) es igual a la velocidad constante del punto en ( fase óptica por unidad de tiempo ) 2 ; podemos establecer esto arbitrariamente 1 / 2 unidades: podemos elegir cualquier constante siempre que seamos coherentes (los parámetros afines escalados y desplazados siguen siendo afines). Si tomamos esta convención, y si usamos coordenadas que son localmente cartesianas en la interfaz con el X y plano paralelo a y el z dirección normal a la interfaz, entonces se puede demostrar que los momentos ópticos son pags k = norte γ k , dónde norte es el índice de refracción en el punto donde el rayo se encuentra con la interfaz y γ k son los cosenos directores que forma la dirección del rayo con los ejes ortonormales. A partir de aquí se puede probar fácilmente la afirmación anterior sobre la ley de Snell.

Esta situación nos lleva al método más común de manejar transformaciones de Legendre singulares: el uso de restricciones para deshacerse de la redundancia de "lo malo y lo feo" que discutimos anteriormente. El uso de L = 1 2 gramo ( X ˙ , X ˙ ) se puede pensar que pertenece a esta idea si pensamos en ella como encontrar la geodésica junto con la restricción de que nuestro parámetro de ruta debe ser afín para que L = C o norte s t . En óptica, cuando hay lentes y espejos involucrados, la solución común es restringir la velocidad a lo largo del camino para que sea tal que una de las coordenadas X i , decir X 3 es en sí mismo el parámetro de ruta de modo que X ˙ 3 = 1 . La ilustración más obvia de esta idea es donde el sistema óptico tiene un eje óptico, medimos el z coordinar a lo largo de este eje y así z -coordinate es el parámetro de ruta. esto sacrifica X 3 y pags 3 del lagrangiano y hamiltoniano, y ahora el espacio de fase es de cuatro dimensiones en lugar de seis. De manera más general, usamos coordenadas generalizadas de modo que 1 y 2 son ortogonales a 3 y que las superficies de constante X 3 están alineados con las interfaces dieléctricas. Claramente podemos hacer esto: podemos usar coordenadas de "voltaje" (mi nombre, no se usa en la literatura) donde las superficies de la lente son superficies equipotenciales y superficies de constante X 3 en un problema de electrostática, y luego las direcciones de aumento X 1 y X 2 se encuentran en las superficies equipotenciales. La tercera coordenada es entonces el voltaje en cualquier punto. Si hacemos esto, entonces las componentes transversales del momento óptico siguen siendo continuas en cada interfaz. Desde el X 1 y X 2 las coordenadas también son continuas, la interfaz dieléctrica ahora imparte un simplectomorfismo - de hecho, el operador de identidad - en el estado óptico en este enfoque de cuatro dimensiones. En coordenadas cartesianas, con z como parámetro de ruta, este enfoque se ve así:

(13) L = norte 1 + X ˙ 2 + y ˙ 2 H = norte 2 pags X 2 pags y 2 pags X = norte X ˙ 1 + X ˙ 2 + y ˙ 2 pags y = norte y ˙ 1 + X ˙ 2 + y ˙ 2 ;

y los epígrafes de ambos L y H Ambos son hiperboloides convexos / cóncavos que se comportan perfectamente bien. Sin embargo, el parámetro de ruta no es afín, por lo que no puede usar fácilmente este enfoque para calcular dónde están los frentes de fase.

A veces, en óptica, usamos ambos enfoques: si desea calcular dónde están los frentes de onda de un campo que diverge de una fuente, entonces claramente necesitará los parámetros de ruta afines para saber dónde la superficie de cada fase constante cruza las geodésicas y el seis dimensiones, L = gramo ( X ˙ , X ˙ ) Acercarse. Para hacer el análisis de transferencia de rayos , o si necesita valerse de la poderosa invariante óptica o las nociones de extensión (que son formas diferenciales invariantes en el espacio de fase óptico simpléctico), entonces necesita todas las interfaces en el sistema para impartir simplectomorfismos en el estado óptico y uno utilizará el enfoque de cuatro dimensiones.

Si desea un ejemplo clásico simple, físicamente significativo y famoso de un modelo de juguete en mecánica de fluidos, puede considerar partículas pesadas en un flujo celular:

X ¨ = X ˙ tu s i norte ( y ) τ y ¨ = y ˙ tu s i norte ( X ) τ

dónde τ es el tiempo de Stokes de la fuerza de arrastre de las partículas. Los senos representan el flujo de portadores, que está formado por células. En algunas situaciones, para estudiar el comportamiento asintótico, resulta interesante despreciar el arrastre proporcional a la velocidad y se llega a:

X ¨ = tu s i norte ( y ) τ y ¨ = tu s i norte ( X ) τ

Puedes escribir este sistema en el espacio Fase:

X ˙ = tu tu ˙ = tu s i norte ( y ) τ y ˙ = v v ¨ = tu s i norte ( X ) τ

Este sistema proviene del hamiltoniano.

H ( X , y , tu , v ) = tu v + tu C o s X + C o s y τ

que no es convexo ni acotado. El Lagrangiano sigue inmediatamente.

¿Qué pasa entonces? Para los sistemas anteriores, tiene evidencia numérica de caos, puntos asintóticos estables e inestables y superdifusión coherente... La explicación dinámica de esto último sigue siendo un problema abierto para los flujos celulares.

H aunque no es particularmente patológico. El epígrafe de H = tu v es un hiperboloide de dos hojas, cada hoja es convexa. Rota tus coordenadas por tu = tu ~ + v ~ , v = tu ~ v ~ Llegar H = tu ~ 2 v ~ ˆ 2 para ver esto más claro. Es por eso que la transformada de Legendre funciona sin problemas aquí, la matriz hessiana {{0,1},{1,0}} nunca es singular. La función no es globalmente convexa en X y y , pero es localmente cóncava/convexa y la matriz hessiana solo tiene singularidades aisladas. Como en la respuesta de Qmechanic, aquí es donde puede analizar el problema en "sectores".