En el aprendizaje TD, ¿se utiliza la función de peso como filtro lineal?

Question

En el aprendizaje TD, ¿se utiliza la función de peso como filtro lineal?

Trabajo
neurociencia
modelado computacional
neurociencia teorica

Nasorenga

En el algoritmo de aprendizaje de diferencia temporal (TD-learning), un agente busca predecir el valor total de las recompensas futuras que se recibirán durante la prueba actual. El agente actualiza la predicción a medida que avanza la prueba, en función de los estímulos condicionados (CS) que se han visto hasta el momento. Específicamente, la predicción se calcula como una suma ponderada de las intensidades de la presentación CS pasada. En el momento $t$ , la predicción se calcula como

v (t) = \sum_{z = 0}^{t} w (z) tu (t - z)

$v(t) = \sum_{z=0}^t w(z)u(t-z)$

donde $v(t)$ es la predicción en el tiempo $t$ , $u(t)$ es la intensidad de CS en el tiempo $t$ , y $w$ es una matriz de pesos.

Mi pregunta es: ¿por qué estamos sumando los términos $w(z)u(t-z)$ , en vez de $w(z)u(z)$ , es decir, ¿por qué cada peso no está asociado con la fuerza CS en un momento determinado?

[Gracias a la respuesta del usuario honi, posteriormente entendí que cada elemento de la matriz de peso está asociado con un tiempo transcurrido desde que vi el CS. Por ejemplo, $w(3)$ es el peso dado a la fuerza CS experimentada hace tres unidades de tiempo.]

[Enunciado original de la pregunta: estoy leyendo Theoretical Neuroscience de Dayan y Abbot, y me confunde el uso de $w(t)$ en las ecuaciones (9.6) y (9.7). En el primero es una función de ventana (filtro lineal) y en el segundo es la función de peso. ¿Es esto (a) un uso desafortunado del mismo nombre para dos cosas diferentes, o (b) es la función de peso realmente utilizada como un filtro lineal para calcular $v(t)$ ?]

aliced

Bienvenidos. Tenga en cuenta que no todo el mundo posee el libro al que se hace referencia. Mencionar números de fórmula no es realmente útil. En cambio, es necesaria una explicación clara del contexto, los acrónimos y los símbolos para que la gente entienda su pregunta. Personalmente, estoy perdido en lo que estás preguntando.

Nasorenga

Gracias por el consejo, AliceD. - No estaba bajo la ilusión de que todos tenían este libro, solo esperaba conectarme con una persona que lo hiciera y pudiera ayudarme, ¡y funcionó! :-)

aliced

Tenga en cuenta que cualquier publicación debería ser interesante para la comunidad en general. El hecho de que te ayuden no significa que sea el tema aquí. @Honi, ¿quizás puedas actualizar la pregunta?

Respuestas (1)

En el aprendizaje TD, ¿se utiliza la función de peso como filtro lineal?

Bienvenidos. Tenga en cuenta que no todo el mundo posee el libro al que se hace referencia. Mencionar números de fórmula no es realmente útil. En cambio, es necesaria una explicación clara del contexto, los acrónimos y los símbolos para que la gente entienda su pregunta. Personalmente, estoy perdido en lo que estás preguntando.
Gracias por el consejo, AliceD. - No estaba bajo la ilusión de que todos tenían este libro, solo esperaba conectarme con una persona que lo hiciera y pudiera ayudarme, ¡y funcionó! :-)
Tenga en cuenta que cualquier publicación debería ser interesante para la comunidad en general. El hecho de que te ayuden no significa que sea el tema aquí. @Honi, ¿quizás puedas actualizar la pregunta?

honi · Answer 1

Son iguales en las dos ecuaciones. Véase la ecuación 9.3: v = w*u. w y u están en negrita en esa ecuación para indicar que son vectores. En la ecuación 9.3, son vectores de estímulos presentados simultáneamente, pero puede aplicar la misma ecuación si u es un vector de un solo estímulo a lo largo del tiempo y w son los pesos de cada paso de tiempo de ese estímulo. De hecho, un filtro lineal es simplemente una forma de ponderar diferentes pasos de tiempo de una entrada variable en el tiempo. Tenga en cuenta que v en la ecuación 9.3 es un valor único, mientras que v en la ecuación 9.6 es una función de t, es decir, tiene un valor diferente en cada punto de tiempo dependiendo de qué parte de u está ocurriendo actualmente.

Gracias honi, lo entiendo ahora! -- En cualquier momento t, al calcular la predicción v(t), se usa w(z) para ponderar la contribución de u(tz), el valor que tenía el estímulo z ticks antes.
sí. ¿Te importaría aceptar mi respuesta si resolvió tu problema?

En el aprendizaje TD, ¿se utiliza la función de peso como filtro lineal?

Nasorenga

aliced

Nasorenga

aliced

Respuestas (1)

honi

Nasorenga

honi

vínculo entre el procesamiento de arriba hacia abajo (de abajo hacia arriba) y las capas de la corteza

¿El sistema visual humano implementa la ecualización de histogramas (adaptativa)?

Determinación de la posición del ion calcio en el espacio tridimensional

¿Cuáles son los ejemplos clave del uso de métodos computacionales en el estudio de redes neuronales biológicas?

Plausibilidad biológica de los modelos bayesianos de cognición

¿Cuál es la diferencia entre la neurociencia computacional, la neurociencia teórica y la neuroinformática (si existe)?

¿Qué explica la variabilidad en la tasa de activación media entre las neuronas biológicas?

Solicitud de requisito previo: Neurorobotics [cerrado]

Modelo computacional que vincula la actividad neuronal con el comportamiento

¿En qué medida es útil la dinámica no lineal y el caos para estudiar la función cerebral?