En el aprendizaje TD, ¿se utiliza la función de peso como filtro lineal?

En el algoritmo de aprendizaje de diferencia temporal (TD-learning), un agente busca predecir el valor total de las recompensas futuras que se recibirán durante la prueba actual. El agente actualiza la predicción a medida que avanza la prueba, en función de los estímulos condicionados (CS) que se han visto hasta el momento. Específicamente, la predicción se calcula como una suma ponderada de las intensidades de la presentación CS pasada. En el momento t , la predicción se calcula como

v ( t ) = z = 0 t w ( z ) tu ( t z )

donde v ( t ) es la predicción en el tiempo t , tu ( t ) es la intensidad de CS en el tiempo t , y w es una matriz de pesos.

Mi pregunta es: ¿por qué estamos sumando los términos w ( z ) tu ( t z ) , en vez de w ( z ) tu ( z ) , es decir, ¿por qué cada peso no está asociado con la fuerza CS en un momento determinado?

[Gracias a la respuesta del usuario honi, posteriormente entendí que cada elemento de la matriz de peso está asociado con un tiempo transcurrido desde que vi el CS. Por ejemplo, w ( 3 ) es el peso dado a la fuerza CS experimentada hace tres unidades de tiempo.]


[Enunciado original de la pregunta: estoy leyendo Theoretical Neuroscience de Dayan y Abbot, y me confunde el uso de w ( t ) en las ecuaciones (9.6) y (9.7). En el primero es una función de ventana (filtro lineal) y en el segundo es la función de peso. ¿Es esto (a) un uso desafortunado del mismo nombre para dos cosas diferentes, o (b) es la función de peso realmente utilizada como un filtro lineal para calcular v ( t ) ?]

Bienvenidos. Tenga en cuenta que no todo el mundo posee el libro al que se hace referencia. Mencionar números de fórmula no es realmente útil. En cambio, es necesaria una explicación clara del contexto, los acrónimos y los símbolos para que la gente entienda su pregunta. Personalmente, estoy perdido en lo que estás preguntando.
Gracias por el consejo, AliceD. - No estaba bajo la ilusión de que todos tenían este libro, solo esperaba conectarme con una persona que lo hiciera y pudiera ayudarme, ¡y funcionó! :-)
Tenga en cuenta que cualquier publicación debería ser interesante para la comunidad en general. El hecho de que te ayuden no significa que sea el tema aquí. @Honi, ¿quizás puedas actualizar la pregunta?

Respuestas (1)

Son iguales en las dos ecuaciones. Véase la ecuación 9.3: v = w*u. w y u están en negrita en esa ecuación para indicar que son vectores. En la ecuación 9.3, son vectores de estímulos presentados simultáneamente, pero puede aplicar la misma ecuación si u es un vector de un solo estímulo a lo largo del tiempo y w son los pesos de cada paso de tiempo de ese estímulo. De hecho, un filtro lineal es simplemente una forma de ponderar diferentes pasos de tiempo de una entrada variable en el tiempo. Tenga en cuenta que v en la ecuación 9.3 es un valor único, mientras que v en la ecuación 9.6 es una función de t, es decir, tiene un valor diferente en cada punto de tiempo dependiendo de qué parte de u está ocurriendo actualmente.

Gracias honi, lo entiendo ahora! -- En cualquier momento t, al calcular la predicción v(t), se usa w(z) para ponderar la contribución de u(tz), el valor que tenía el estímulo z ticks antes.
sí. ¿Te importaría aceptar mi respuesta si resolvió tu problema?