¿Cuáles son los algoritmos clave para aprender el comportamiento óptimo de los agentes económicos?

Estoy jugando con el aprendizaje social de reglas de comportamiento casi óptimas en un conjunto de agentes. Aproximadamente, la idea es que, dado un proceso de ingresos (o un proceso tecnológico, según la pregunta), existe una regla de política intertemporal no lineal óptima. Suponga que esta regla se puede aproximar de cerca mediante una función lineal. A los agentes les gustaría aprender esta regla de política, y un primer paso es hacer que aprendan la regla simplemente experimentando. "En autarquía", es decir, sin ningún intercambio de información con otros agentes, un agente probaría una regla durante algún tiempo, usaría alguna métrica para determinar qué tan bien se comporta frente a otras reglas que ha probado, y tal vez reevaluaría, tal vez probaría una regla completamente diferente. regla diferente a través de la experimentación. Este agente sólo observa su propia historia.

Un segundo paso es permitir que el agente acceda a los historiales de todos los demás agentes. Presumiblemente, esto aceleraría el aprendizaje. Un tercer paso podría ser colocar a estos agentes en una red de información de algún tipo.

He estado leyendo literatura sobre aprendizaje social, pero no estoy del todo seguro de que los marcos que estoy viendo sean exactamente lo que quiero. Muchos de ellos parecen ser aprendizaje bayesiano sobre un estado oculto de la naturaleza, para el cual todos tienen una señal privada. Estoy revisando activamente la literatura en este momento, pero mientras lo hago, ¿alguien tiene alguna idea o sugerencia?

Puede buscar en la literatura de IA.
De acuerdo con la IA. Las redes bayesianas y los algoritmos genéticos también entran en esto.
¿Alguna referencia en particular?

Respuestas (4)

Eche un vistazo a POMDP : procesos de decisión de Markov parcialmente observables.

Si tiene una función de valor (ingreso) que se conoce para los agentes en varios estados, y está tratando de identificar la política óptima, entonces la ecuación de Bellman , que está en el corazón de POMDP, lo ayudará a identificar esta política.

Estas herramientas son parte de una clase de algoritmos de aprendizaje por refuerzo (de hecho, se usan con bastante frecuencia para la robótica). Por lo tanto, se asignan muy claramente al marco que ha identificado (agentes, una función de recompensa y un espacio de estado/acción)

Otro ángulo de ataque sería el uso de algoritmos genéticos en su procedimiento de optimización.

Los algoritmos de aprendizaje de refuerzo +1 son realmente algo que el OP debería considerar. Palabras clave para encontrar referencias: Q-learning, algoritmo de Kearns, problema de planificación, aproximación para procesos de decisión de Markov. Por ejemplo, puede consultar los documentos de G. Tesauro para empezar.
Gracias, seguiré investigando esto. Después de leer detenidamente la literatura por un tiempo (hay muchas cosas buenas en el Handbook of Computational Economics, Vol. 2, que me perdí la primera vez que lo leí hace mucho tiempo), creo que me he decidido por un Acercarse. ¡Gracias a todos!

Aquí hay dos enfoques computacionales que podrían funcionar:

I. Red neuronal artificial

Una red neuronal consta de un grupo interconectado de neuronas artificiales y procesa información mediante un enfoque conexionista de la computación. En la mayoría de los casos, una ANN es un sistema adaptativo que cambia su estructura en función de la información externa o interna que fluye a través de la red durante la fase de aprendizaje. Las redes neuronales modernas son herramientas de modelado de datos estadísticos no lineales. Por lo general, se utilizan para modelar relaciones complejas entre entradas y salidas o para encontrar patrones en los datos. Quizás la mayor ventaja de las ANN es su capacidad para utilizarse como un mecanismo de aproximación de funciones arbitrarias que "aprende" de los datos observados. Sin embargo, usarlos no es tan sencillo y es esencial una comprensión relativamente buena de la teoría subyacente.

  • Elección del modelo: Esto dependerá de la representación de datos y la aplicación. Los modelos demasiado complejos tienden a generar problemas de aprendizaje.
  • Algoritmo de aprendizaje: existen numerosas ventajas y desventajas entre los algoritmos de aprendizaje. Casi cualquier algoritmo funcionará bien con los hiperparámetros correctos para entrenar en un conjunto de datos fijo en particular. Sin embargo, seleccionar y ajustar un algoritmo para entrenar con datos invisibles requiere una gran cantidad de experimentación.
  • Robustez: si el modelo, la función de costo y el algoritmo de aprendizaje se seleccionan adecuadamente, la ANN resultante puede ser extremadamente robusta.

II. Máquinas de vectores soporte

Un conjunto de métodos de aprendizaje supervisado relacionados que analizan datos y reconocen patrones, utilizados para clasificación y análisis de regresión. El SVM estándar toma un conjunto de datos de entrada y predice, para cada entrada dada, a cuál de las dos clases posibles pertenece la entrada, lo que convierte al SVM en un clasificador lineal binario no probabilístico. Dado que una SVM es un clasificador, dado un conjunto de ejemplos de entrenamiento, cada uno marcado como perteneciente a una de dos categorías, un algoritmo de entrenamiento SVM construye un modelo que predice si un nuevo ejemplo cae en una categoría u otra. Intuitivamente, un modelo SVM es una representación de los ejemplos como puntos en el espacio, mapeados de modo que los ejemplos de las categorías separadas estén divididos por una brecha clara que sea lo más amplia posible.

Las redes neuronales se han utilizado para crear reproductores de computadora altamente competitivos para FreeCiv de código abierto . Allí, las redes neuronales se usan con los métodos de Monte Carlo , que también he usado para simular interacciones económicas en juegos.

No estoy seguro de si esto es completamente lo que está buscando, pero ¿podría ser un comienzo?

Gracias por su respuesta. Esto no es exactamente lo que estoy buscando; en esta etapa, estoy buscando más ejemplos de mecanismos de aprendizaje más simples, idealmente en algunos artículos de economía publicados. Sin embargo, aprecio los consejos; ¡Gracias!
@Nathan: ¿te refieres a algoritmos de trabajo reales con documentos que muestran pruebas, o simplemente economía general usando este tipo de modelos?
al fin y al cabo busco papeles que usaran mecanismos que yo pudiera usar; idealmente artículos que podría citar en una revisión de la literatura.
Solo quería decir nuevamente: ¡gracias por los consejos anteriores! El artículo sobre FreeCiv es particularmente interesante, especialmente porque me costó mucho superar la versión más reciente :) ¡Gracias de nuevo por el tiempo y el esfuerzo que dedicaste a tu respuesta! Creo que los usaré un poco más adelante.

Muchos algoritmos clave se resumen en el sitio web de ACE Research Area: Learning and the Embodied Mind .

ACE = Economía computacional basada en agentes

El sitio web de Leigh Tesfatsion es uno que todos deberían leer de vez en cuando: un recurso absolutamente fantástico. Pasé un poco de tiempo allí mientras investigaba esto.
Sí, es un gran sitio web para la economía del comportamiento y la comprensión de la motivación basada en agentes. @Sylvain Peyronnet hay una gran cantidad de material en este sitio web, ¿hay entradas particulares que podría mencionar en su respuesta y por qué?

Este artículo de Glazer y Rubinstein, aunque no es estrictamente relevante para su investigación, utiliza un modelo algorítmico particular del comportamiento de los agentes y analiza su efecto en la implementación de diferentes mecanismos. El algoritmo en sí podría ser de su interés; creo que sus variantes podrían ser tanto realistas como fáciles de usar en modelos aplicados.