¿Existen modelos conexionistas que integren el refuerzo y el aprendizaje totalmente supervisado?

He estado trabajando en el modelado de algunos fenómenos que involucran el control en tiempo real en un entorno con recompensas inherentes (específicamente, jugar un juego tipo 'pong'), y parece cada vez más que el aprendizaje por refuerzo por sí solo no lo resolverá computacionalmente (yo actualmente estoy usando una red neuronal de propagación inversa de diferencia temporal ).

Un posible mecanismo de aprendizaje complementario es hacer que el modelo también prediga el estado futuro del entorno, del cual puede aprender de manera supervisada utilizando la propagación de retroalimentación estándar.

Mi pensamiento actual sobre la síntesis de estos mecanismos es hacer que la capa de entrada se alimente en una capa oculta, que a su vez se alimenta tanto de una capa de predicción de recompensa como de una capa de predicción de estado separada. Al entrenar esta red, simplemente cambio los pesos a través del aprendizaje por refuerzo primero y luego los cambio de nuevo para tener en cuenta el error de predicción del estado a través de la función back prop.

Así que mi pregunta es la siguiente : ¿Hay algún problema que pueda prever que surja de esta arquitectura? Además, ¿se ha hecho antes esta combinación de mecanismos de aprendizaje y, de ser así, se hizo de manera similar?

Si todavía está buscando esta pregunta, CS.SE podría ser un gran lugar para hacer una pregunta de seguimiento.
¿Considera que el trabajo basado en el Marco de Ingeniería Neurológica es conexionista?

Respuestas (1)

No estoy seguro de entender completamente su diseño; tal vez pueda aclarar qué quiere que aprenda su red, por qué TD-learning "no es suficiente" y qué quiere decir con aprendizaje de "refuerzo" y "predicción". En particular, TD-learning es un modelo de aprendizaje por refuerzo y recompensa en función de los resultados previstos (y no solo observados). Sin embargo, parece estar describiendo el aprendizaje por refuerzo y predicción como modelos ortogonales, así que nuevamente, no estoy seguro de haber entendido correctamente.

Como sugerencia general, podría considerar usar una red Elman/Jordan (por ejemplo, red neuronal recurrente/RNN). En lugar de depender únicamente del conocimiento del estado actual para hacer una predicción sobre el siguiente estado, RNN puede aprender a reconocer secuencias de eventos. Esto es especialmente útil para predecir estados futuros en una tarea que se desarrolla con el tiempo (p. ej., [1]). Sugiero esto principalmente porque dice que su tarea es una tarea de 'control en tiempo real', pero sin más conocimiento de su tarea, realmente no sé si esto es apropiado.

En cuanto a su sugerencia de usar dos mecanismos de aprendizaje diferentes para modificar un solo conjunto de pesos, no tengo la respuesta, pero me parece contradictorio. Está utilizando dos técnicas de optimización diferentes en un solo conjunto de datos. Si las técnicas no están de acuerdo, su red probablemente nunca aprenderá sus pesos de conexión. Si están de acuerdo (es decir, convergen en la misma respuesta), entonces no estoy seguro de que esté agregando algún valor al tener dos mecanismos de aprendizaje.

[1] Elman (1990). Encontrar estructura en el tiempo. Ciencia cognitiva, 14, 179-211. Obtenido de http://synapse.cs.byu.edu/~dan/678/papers/Recurrent/Elman.pdf

Punto a favor; He repasado este problema lo suficiente en mi cabeza como para no saber cuántos términos dejé sin especificar. Aclararé mi pregunta en breve y agregaré un diagrama de la arquitectura de red prevista. En una nota al margen, esto parece servir más como un comentario que como una respuesta.
medio comentario, medio respuesta: sí, puedo prever problemas derivados de esa arquitectura. pero además, simplemente no cabía en el cuadro de comentarios.
Hice algunas correcciones para aclarar ambigüedades. Para ser claros, ambos mecanismos de aprendizaje propuestos están prediciendo algo, pero predecir el siguiente estado (una matriz de píxeles en este caso) no requiere TD ya que la respuesta correcta es inmediatamente visible en el siguiente paso de tiempo.
¿Está utilizando actualmente un RNN o feedforward? Un RNN debe aprender a asociar las trayectorias de la pelota con un estado específico de la paleta. Lo siento si esto no ayuda...