Temporal Difference (TD) Up dating without a Learning Rate
Marcus Hutter AN U
www.hutter1.net

Poster T7
NICTA IDSIA
 б 

Shane Legg
www.vetta.org

IDSIA SUPSI USI

  й  бд

вбг

изж е  бг

вб 

 бв б   

 гб 

╖ In every setting that we have tested, superior performance & fewer parameters to tune

вдб 

вгб 

 дб  


~ ╖ We derived learning rate t for TD with eligibility traces from statistical principles.

black=low= =good=ours

дб  ' & #%б "$ е гб  ' & #%б "$ е # бг"!

вб   б 

╖ Reinforcement learning TD update: ~ Vst+1 = Vst + t (s, st+1 )(rt + Vstt+1-Vstt )