【强化学习-09】Multi-step TD target
Multi-step TD target本笔记整理自 (作者: Shusen Wang):https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0Multi-step TD target是对TD算法的一种改进。注意:上面的Sars
·
Multi-step TD target
本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0
Multi-step TD target是对TD算法的一种改进。
- 注意:上面的Sarsa和Q-learning都是只包含了一个奖励 r t r_t rt,如果包含多个奖励,就是multi-step TD target
更多推荐
所有评论(0)