Estoy jugando con el aprendizaje social de reglas de comportamiento casi óptimas en un conjunto de agentes. Aproximadamente, la idea es que, dado un proceso de ingresos (o un proceso tecnológico, según la pregunta), existe una regla de política intertemporal no lineal óptima. Suponga que esta regla se puede aproximar de cerca mediante una función lineal. A los agentes les gustaría aprender esta regla de política, y un primer paso es hacer que aprendan la regla simplemente experimentando. "En autarquía", es decir, sin ningún intercambio de información con otros agentes, un agente probaría una regla durante algún tiempo, usaría alguna métrica para determinar qué tan bien se comporta frente a otras reglas que ha probado, y tal vez reevaluaría, tal vez probaría una regla completamente diferente. regla diferente a través de la experimentación. Este agente sólo observa su propia historia.
Un segundo paso es permitir que el agente acceda a los historiales de todos los demás agentes. Presumiblemente, esto aceleraría el aprendizaje. Un tercer paso podría ser colocar a estos agentes en una red de información de algún tipo.
He estado leyendo literatura sobre aprendizaje social, pero no estoy del todo seguro de que los marcos que estoy viendo sean exactamente lo que quiero. Muchos de ellos parecen ser aprendizaje bayesiano sobre un estado oculto de la naturaleza, para el cual todos tienen una señal privada. Estoy revisando activamente la literatura en este momento, pero mientras lo hago, ¿alguien tiene alguna idea o sugerencia?
Eche un vistazo a POMDP : procesos de decisión de Markov parcialmente observables.
Si tiene una función de valor (ingreso) que se conoce para los agentes en varios estados, y está tratando de identificar la política óptima, entonces la ecuación de Bellman , que está en el corazón de POMDP, lo ayudará a identificar esta política.
Estas herramientas son parte de una clase de algoritmos de aprendizaje por refuerzo (de hecho, se usan con bastante frecuencia para la robótica). Por lo tanto, se asignan muy claramente al marco que ha identificado (agentes, una función de recompensa y un espacio de estado/acción)
Otro ángulo de ataque sería el uso de algoritmos genéticos en su procedimiento de optimización.
Aquí hay dos enfoques computacionales que podrían funcionar:
Una red neuronal consta de un grupo interconectado de neuronas artificiales y procesa información mediante un enfoque conexionista de la computación. En la mayoría de los casos, una ANN es un sistema adaptativo que cambia su estructura en función de la información externa o interna que fluye a través de la red durante la fase de aprendizaje. Las redes neuronales modernas son herramientas de modelado de datos estadísticos no lineales. Por lo general, se utilizan para modelar relaciones complejas entre entradas y salidas o para encontrar patrones en los datos. Quizás la mayor ventaja de las ANN es su capacidad para utilizarse como un mecanismo de aproximación de funciones arbitrarias que "aprende" de los datos observados. Sin embargo, usarlos no es tan sencillo y es esencial una comprensión relativamente buena de la teoría subyacente.
II. Máquinas de vectores soporte
Un conjunto de métodos de aprendizaje supervisado relacionados que analizan datos y reconocen patrones, utilizados para clasificación y análisis de regresión. El SVM estándar toma un conjunto de datos de entrada y predice, para cada entrada dada, a cuál de las dos clases posibles pertenece la entrada, lo que convierte al SVM en un clasificador lineal binario no probabilístico. Dado que una SVM es un clasificador, dado un conjunto de ejemplos de entrenamiento, cada uno marcado como perteneciente a una de dos categorías, un algoritmo de entrenamiento SVM construye un modelo que predice si un nuevo ejemplo cae en una categoría u otra. Intuitivamente, un modelo SVM es una representación de los ejemplos como puntos en el espacio, mapeados de modo que los ejemplos de las categorías separadas estén divididos por una brecha clara que sea lo más amplia posible.
Las redes neuronales se han utilizado para crear reproductores de computadora altamente competitivos para FreeCiv de código abierto . Allí, las redes neuronales se usan con los métodos de Monte Carlo , que también he usado para simular interacciones económicas en juegos.
No estoy seguro de si esto es completamente lo que está buscando, pero ¿podría ser un comienzo?
Muchos algoritmos clave se resumen en el sitio web de ACE Research Area: Learning and the Embodied Mind .
ACE = Economía computacional basada en agentes
Este artículo de Glazer y Rubinstein, aunque no es estrictamente relevante para su investigación, utiliza un modelo algorítmico particular del comportamiento de los agentes y analiza su efecto en la implementación de diferentes mecanismos. El algoritmo en sí podría ser de su interés; creo que sus variantes podrían ser tanto realistas como fáciles de usar en modelos aplicados.
jason b
Turukawa
Nate