¿Existe un modelo de red neuronal de aprendizaje pavloviano?

Estoy tratando de encontrar una simulación por computadora del aprendizaje pavloviano. es decir, una acción como la salivación en respuesta a un estímulo como el sonido de una campana.

La mayoría de los modelos de redes neuronales que he visto parecen tener más que ver con tratar de reconocer cosas como la escritura a mano o el habla que con el modelo de estímulo-respuesta. Y no suelen incorporar la naturaleza temporal del aprendizaje pavloviano. Por ejemplo, tocar un timbre, esperar un poco, dar comida para perros.

¿Existen simulaciones informáticas de esto? (¿Tienen un nombre?) ¿Hay un modelo de neurona conectada de esto?

Es posible que le interese esta pregunta sobre los refinamientos del modelo Rascorla-Wagner de condicionamiento clásico , que escuché que proporciona el aprendizaje de diferencia temporal . TD-learning tiene varias implementaciones en neuro, y esas también serían implementaciones de aprendizaje pavloviano entonces.

Respuestas (3)

En general, lo que está buscando es un modelo biológicamente plausible de aprendizaje por refuerzo y/o condicionamiento. Conozco dos publicaciones en particular que abordan esto.

El primero es un modelo de neurona puntiaguda biológicamente plausible del condicionamiento del miedo y el segundo es un modelo integrador neuronal puntiagudo del control adaptativo de la acción por parte de la corteza prefrontal medial . Ambos utilizan el marco de ingeniería neuronal y una regla de aprendizaje para modificar los pesos de conexión entre conjuntos de neuronas de pico biológicamente plausibles. Estas conexiones se modifican para crear y destruir asociaciones entre estímulos y una acción. Sin embargo, en el segundo artículo, se muestra que el mecanismo también puede aprender información de tiempo.

Clasificaría el aprendizaje pavloviano como un tipo de aprendizaje hebbiano . Donde los eventos que ocurren juntos se refuerzan positivamente entre sí (diferente del aprendizaje por refuerzo).

Esta idea se ha modificado en redes Hopfield y luego en sus descendientes Boltzmann y máquinas Boltzmann restringidas. Usan un algoritmo llamado divergencia contrastiva que es efectivamente aprendizaje hebbiano. Intenta hacer que los eventos que ocurren juntos produzcan estados más estables, y los eventos que no ocurren juntos se vuelven menos estables, por lo tanto, dado un estado parcial, la red se verá atraída por el estado estable.

Entonces, si suena una campana y se recibe comida, la red aprenderá que este es un estado (más) estable y cuando/si solo suena la campana, la red se sentirá naturalmente atraída por el estado, campana + comida, como todos los demás estados. son menos estables.

(Desafortunadamente, no entiendo particularmente bien la divergencia contrastiva, puede ser mejor buscarlo usted mismo).

Este trabajo conduce al aprendizaje no supervisado, el aprendizaje profundo y los codificadores automáticos.

Aunque, pensándolo bien, debo aclarar que esto actualmente no funciona con la diferencia temporal. Así que no sé si realmente respondí la pregunta.

Para que quede claro, los dos documentos a los que me vinculé también usan el aprendizaje de Hebbian como lo captura la regla de aprendizaje Prescribed Error Sensitivity (PES) .
Ok, mi mal. No miré los papeles. Editaré mi respuesta

Un verdadero clásico, el modelo Configural-Cue, utiliza la regla Rescorla-Wagner para aprender asociaciones entre señales y resultados. Enlace1 Enlace2 Enlace3

En mi opinión, este es uno de los modelos de condicionamiento más directos (es decir, más simples), probablemente un buen punto de partida para usted.