En el algoritmo de aprendizaje de diferencia temporal (TD-learning), un agente busca predecir el valor total de las recompensas futuras que se recibirán durante la prueba actual. El agente actualiza la predicción a medida que avanza la prueba, en función de los estímulos condicionados (CS) que se han visto hasta el momento. Específicamente, la predicción se calcula como una suma ponderada de las intensidades de la presentación CS pasada. En el momento , la predicción se calcula como
donde es la predicción en el tiempo , es la intensidad de CS en el tiempo , y es una matriz de pesos.
Mi pregunta es: ¿por qué estamos sumando los términos , en vez de , es decir, ¿por qué cada peso no está asociado con la fuerza CS en un momento determinado?
[Gracias a la respuesta del usuario honi, posteriormente entendí que cada elemento de la matriz de peso está asociado con un tiempo transcurrido desde que vi el CS. Por ejemplo, es el peso dado a la fuerza CS experimentada hace tres unidades de tiempo.]
[Enunciado original de la pregunta: estoy leyendo Theoretical Neuroscience de Dayan y Abbot, y me confunde el uso de en las ecuaciones (9.6) y (9.7). En el primero es una función de ventana (filtro lineal) y en el segundo es la función de peso. ¿Es esto (a) un uso desafortunado del mismo nombre para dos cosas diferentes, o (b) es la función de peso realmente utilizada como un filtro lineal para calcular ?]
Son iguales en las dos ecuaciones. Véase la ecuación 9.3: v = w*u. w y u están en negrita en esa ecuación para indicar que son vectores. En la ecuación 9.3, son vectores de estímulos presentados simultáneamente, pero puede aplicar la misma ecuación si u es un vector de un solo estímulo a lo largo del tiempo y w son los pesos de cada paso de tiempo de ese estímulo. De hecho, un filtro lineal es simplemente una forma de ponderar diferentes pasos de tiempo de una entrada variable en el tiempo. Tenga en cuenta que v en la ecuación 9.3 es un valor único, mientras que v en la ecuación 9.6 es una función de t, es decir, tiene un valor diferente en cada punto de tiempo dependiendo de qué parte de u está ocurriendo actualmente.
aliced
Nasorenga
aliced