El integrador doble: iguala la velocidad y la posición lo más rápido posible con solo una cantidad limitada de fuerza disponible

Si un cuerpo con masa metro comienza en la posición X 0 con velocidad v 0 y experimenta una fuerza que varía en función del tiempo F ( t ) (e ignoramos la gravedad, la fricción y todo lo demás que pueda complicar las cosas), entonces podemos calcular la posición y la velocidad del cuerpo en cualquier momento:

v ( t )   =   0 t F ( t ) metro d t + v 0 ,
y
X ( t ) = 0 t 0 t F ( t ) metro d t + v 0 d t + X 0 .

Ahora bien, si tenemos otro cuerpo de la misma masa que parte de la posición X ^ 0 con velocidad v ^ 0 y queremos aplicar una fuerza, F ^ ( t ) , para hacer coincidir la trayectoria del primer cuerpo (posición y velocidad) lo más rápido posible, sujeto a la restricción de que | F ^ ( t ) | F metro a X .

¿Cuáles son las herramientas que necesito para resolver esto?

Respuestas (2)

Reformulemos la pregunta (v1) como un problema de control óptimo del gato y el ratón cinemático 1D . Las masas son irrelevantes para el problema cinemático y, por lo tanto, puestas a

metro   =   1.

1) Considere primero al gato. El objetivo del gato es obtener la posición y la velocidad (!) del ratón lo más rápido posible. El gato puede acelerar.

| a |     a 0 ,

dónde a 0 > 0 es una aceleración máxima. (Actualización: este tipo de problema se conoce en la teoría del control óptimo como integrador doble . Véase también el libro de texto de HP Geering, Optimal Control with Engineering Applications, Springer, 2007, Sección 2.1.4.) Queremos demostrar que, idealmente hablando , existe una estrategia óptima para que la aceleración del gato sea en todo momento la máxima permitida o ninguna,

a ( t )     { a 0 , 0 , a 0 } ,

es decir, el parámetro de control a tiene la propiedad bang-bang .

Definamos una energía cinética con signo

k   :=   metro v | v | 2   =   v | v | 2   =   T   s gramo norte ( v ) , T   :=   metro v 2 2   =   v 2 2   =   | k | .

Es conveniente considerar un ( X , k ) sistema coordinado. Uno puede verlo como un espacio de configuración (o espacio de fase) del sistema, porque el mapa v k es una biyeccion: R R . En particular, se pueden trazar las trayectorias del gato y el ratón en un ( X , k ) diagrama. Del teorema de la energía del trabajo , la pendiente de la trayectoria es (hasta un signo) la aceleración

a   =   metro a   =   d T d X   =   d k d X s gramo norte ( v ) .

Así el gato en estado inicial ( X 0 , k 0 ) debe proceder dentro de un cono C ( X 0 , k 0 ) como se indica en rojo en las Figuras 1, 2 y 3. El gato puede salir del cono C ( X 0 , k 0 ) a través de X -eje k = 0 solo, y dar la vuelta, para llegar a un estado final ( X , k ) fuera del cono.

Figura 1. Caso k 0 > 0 . La región roja denota el cono. C ( X 0 , k 0 ) . Los caminos orientados en negro indican estrategias óptimas para que el gato alcance 3 estados finales diferentes ( X , k ) .

Figura 2. El cono C ( X 0 , k 0 ) marcado con rojo en el caso k 0 = 0 .

Figura 3. El cono C ( X 0 , k 0 ) marcado con rojo en el caso k 0 < 0 .

En detalle matemático, el cono C ( X 0 , k 0 ) es

C ( X 0 , k 0 )   :=   { C + ( X 0 , k 0 ) F o r k 0 > 0 , C + ( X 0 , k 0 ) C ( X 0 , k 0 ) F o r k 0 = 0 , C ( X 0 , k 0 ) F o r k 0 < 0 ,

donde hemos definido los conos positivo y negativo como

C ± ( X 0 , k 0 )   :=   { ( X , k ) R 2 ± a 0 ( X X 0 ) | k k 0 | ± k 0 } .

Para que el gato pase de estado ( X 0 , k 0 ) a estado ( X , k ) , existe una estrategia óptima que conduce a un consumo mínimo de tiempo τ ( X , k ; X 0 , k 0 ) , que hemos tratado de indicar en la figura 1. A grandes rasgos, el gato debe elegir una ruta lo más alejada posible del X -eje k = 0 como sea posible, ya que es más costoso en términos de tiempo tener una velocidad pequeña. Si el estado final ( X , k ) C ( X 0 , k 0 ) está en el cono, entonces se necesitan dos piernas (una aceleración máxima y una desaceleración máxima). Es sencillo calcular que el consumo mínimo de tiempo τ ( X , k ; X 0 , k 0 ) para ( X , k ) C ( X 0 , k 0 ) es

τ ( X , k ; X 0 , k 0 )   =   2 | k | + | k 0 | + a 0 | X X 0 | 2 | k | 2 | k 0 | a 0 .

Hay expresiones similares para τ ( X , k ; X 0 , k 0 ) en varios casos donde ( X , k ) C ( X 0 , k 0 ) pero con más piernas/términos, que dejaremos como ejercicio a determinar.

2) A continuación, considere el ratón. Supongamos que la trayectoria futura completa del ratón t X 1 ( t ) , t 0 , es conocido por un gato que todo lo sabe. (Hay otras reglas posibles del juego, pero esta configuración parece ser la más cercana a lo que busca OP). Deje que la velocidad y la energía cinética firmada del mouse se denoten

v 1 ( t )   =   d X 1 d t a norte d k 1 ( t )   =   v 1 ( t ) | v 1 ( t ) | 2 ,

respectivamente. Para cada tiempo futuro t 0 , define la diferencia

Δ τ ( t )   :=   τ ( X 1 ( t ) , k 1 ( t ) ; X 0 , k 0 ) t

entre el momento en que el gato podría estar en el estado de ratón ( X 1 ( t ) , k 1 ( t ) ) (si el gato se escapó), y el tiempo t el ratón estaría allí. Si los dos estados iniciales del gato y el ratón son diferentes,

( X 0 , k 0 )     ( X 1 ( t = 0 ) , k 1 ( t = 0 ) ) ,

entonces Δ τ ( t = 0 ) > 0 . el primer instante t que el gato puede obtener la ( X , k ) estado del ratón es la primera vez que Δ τ ( t ) se vuelve no positivo,

t   =   inf { t R + Δ τ ( t ) 0 } .

Esta es la respuesta a la rapidez con la que el gato puede obtener la posición y la velocidad del ratón.

Perfecto. Gracias. Parece poco intuitivo que una estrategia bang-bang sea óptima, pero lo que ha ilustrado tiene sentido. También es interesante cómo el coeficiente de amortiguamiento crítico de ζ = 1 está integrado en el espacio de configuración como una pendiente de ± 1 .

De hecho, puedes encontrar dos analogías físicas aquí que pueden explicar mi respuesta.

  1. En un resorte, la fuerza restauradora es proporcional a la desviación del equilibrio. Con algo de amortiguación en el camino, eventualmente tomará la posición inicial.

  2. En dinámica de partículas (considere el arrastre de Stokes), la fuerza de arrastre de una partícula en un fluido viscoso es proporcional a la diferencia de velocidad entre la partícula y el fluido. Al final, la partícula se ajustará a la velocidad del líquido.

Si combinas ambas ideas, entonces la fuerza

F ^ ( t ) = F ( t ) + α ( X ^ ( t ) X ( t ) ) + β ( v ^ ( t ) v ( t ) )

en principio, debería hacer lo que quiera (siempre puede agregar su restricción como un limitador, por supuesto). En realidad, el término en la diferencia de velocidad actuará como el término de amortiguamiento para el término de diferencia de posición.

Su pregunta también incluye lo más rápido posible . Esto se puede hacer eligiendo inteligentemente los coeficientes α y β . Estos pueden elegirse dinámicamente: por ejemplo, ser una función de las diferencias de velocidad y posición. Para eso, debe familiarizarse con términos como amortiguamiento crítico y tiempos de relajación.