Atractores espurios en las redes de Hopfield

Una "red de Hopfield" clásica es un tipo de red neuronal artificial en la que las unidades son biestables y están completamente interconectadas mediante conexiones ponderadas simétricamente. En 1982, Hopfield demostró que dichas redes se caracterizan por una "función de energía", según la cual los recuerdos almacenados corresponden a los mínimos de energía locales [1].

En un artículo de 1983 [2], Hopfield et al demostraron además que las "memorias espurias" (mínimos de energía locales que se crean durante el entrenamiento, además de los patrones objetivo previstos) pueden suprimirse mediante un "procedimiento de desaprendizaje", durante el cual la red se le permite relajarse repetidamente de estados aleatorios, y los estados resultantes luego se "desaprenden" mediante ajustes de peso anti-hebbianos. El procedimiento afecta a las memorias espurias más que a las "memorias aprendidas" deseables, mejorando así el rendimiento de la recuperación. Sin embargo, el documento no ofrece ninguna explicación de por qué esto debería ser así.

Un artículo de 2004 de Robins y McCallum [3] demuestra que los recuerdos espurios se pueden distinguir de los aprendidos porque sus "perfiles de energía" son diferentes. Específicamente, la proporción de las contribuciones de energía más bajas a las más altas de las unidades individuales es significativamente menor en los estados correspondientes a las memorias espurias que en los estados correspondientes a las memorias aprendidas. Nuevamente, el efecto no se tiene en cuenta (excepto por una explicación parcial tentativa).

Mis preguntas son:

  1. ¿Existe una relación entre estos dos hallazgos, es decir, la menor "proporción de energía" de los estados espurios explica su mayor susceptibilidad al desaprendizaje?
  2. ¿Se ha propuesto alguna explicación para uno o ambos fenómenos desde la publicación de los artículos?
  3. ¿Hay otras formas de suprimir o detectar recuerdos espurios en la familia de redes neuronales de Hopfield?

[1] Hopfield, JJ (1982). Redes neuronales y sistemas físicos con habilidades computacionales colectivas emergentes. Actas de la Academia Nacional de Ciencias, 79(8), 2554-2558.

[2] Hopfield, JJ, Feinstein, DI y Palmer, RG (1983). El “desaprender” tiene un efecto estabilizador en las memorias colectivas. Naturaleza, 304 (5922), 158–159.

[3] Robins, AV y McCallum, SJR (2004). Un método robusto para distinguir entre atractores aprendidos y espurios. Redes neuronales, 17(3), 313–326. doi:10.1016/j.neunet.2003.11.007

¡Gracias por hacer esta pregunta! Comentario menor: la pregunta 3 es bastante importante por sí sola y no está tan estrechamente relacionada con las preguntas 1 y 2. Puede valer la pena formularla como una pregunta separada, pero depende de usted.
Argeed, 3 podría ser mejor como una pregunta separada y vinculada

Respuestas (1)

Creo que su intuición sobre la menor "proporción de energía" de los estados espurios que explican su mayor susceptibilidad al desaprendizaje podría ser correcta.

En una red de Hopfield, los estados espurios son patrones de actividad que no se han incrustado explícitamente en la matriz sináptica, pero que, sin embargo, son estables. En otras palabras, son estados atractores "no deseados" que, en virtud de una superposición finita con los estados atractores "deseados", se presentan como un mínimo local en la función de energía. La regla de desaprendizaje en Hopfield et al. (1983) consiste en modificar la matriz sináptica para disminuir la energía de los estados estables en los que se asienta la dinámica de la red, ya sean estados espurios o embebidos. Debido a que los estados espurios tienen mayor energía que los estados incrustados, se ven más fuertemente afectados por el paso de desaprendizaje.

Ahora bien, ¿por qué los estados espurios tienen mayor energía que los estados atractores incrustados? Bueno, en realidad esto no es cierto en general, pero es el caso en un régimen donde la red de Hopfield no excede su capacidad de carga, es decir, cuando el número de patrones aprendidos sobre el número de unidades pag / norte es inferior a la capacidad crítica α C 0.138 . En este régimen, es posible estimar la superposición de los estados espurios con los patrones aprendidos, y mostrar que es generalmente menor que 1 (la superposición de los patrones aprendidos consigo mismos). Debido a cómo la construcción hebbiana de la matriz sináptica en el modelo de Hopfield, estos solapamientos son términos que aparecen en la función de energía. La energía de un patrón es proporcional a menos la raíz cuadrada de su superposición con los patrones aprendidos. Esto significa que los patrones espurios tienen mayor energía que los aprendidos.

En general, este tipo de consideraciones ingenuas debe sustentarse en argumentos más rigurosos basados ​​en la teoría de la probabilidad. Estos, por ejemplo, señalan que incluso para el régimen inferior α C los patrones recuperados son en realidad estados espurios tan pronto como el número de patrones incrustados pag excede arriba norte 2 en norte . Sin embargo, tales estados espurios tienen una gran superposición con los patrones aprendidos ( 0.97 ) que básicamente coinciden con ellos.

Este resultado y sus generalizaciones para temperatura distinta de cero (es decir, ruido en la dinámica) y más allá de la capacidad crítica se han elaborado en el siguiente documento muy técnico:

y en el libro:

buena respuesta y referencias. Bienvenido a CogSci.SE, ¡me alegra tenerte aquí!
¡Bienvenidos! Me hago eco del sentimiento de @ArtemKaznatcheev.
Gracias por esta interesante respuesta, seguiré esas referencias.