《强化学习(第2版)》阅读笔记
·
目录
| 目录 | 页码 |
|---|---|
| 第1章 导论 | 1 |
| 1.1 强化学习 | 1 |
| 1.2 示例 | 4 |
| 1.3 强化学习要素 | 5 |
| 1.4 局限性与适用范围 | 7 |
| 1.5 扩展实例:井字棋 | 8 |
| 1.6 本章小结 | 12 |
| 1.7 强化学习的早期历史 | 13 |
| 第I部分 表格型求解方法 | 23 |
| 第2章 多臂赌博机 | 25 |
| 2.1 一个k臂赌博机问题 | 25 |
| 2.2 动作-价值方法 | 27 |
| 2.3 10臂测试平台 | 28 |
| 2.4 增量式实现 | 30 |
| 2.5 跟踪一个非平稳问题 | 32 |
| 2.6 乐观初始值 | 34 |
| 2.7 基于置信度上界的动作选择 | 35 |
| 2.8 梯度赌博机算法 | 37 |
| 2.9 关联搜索(上下文相关的赌博机) | 40 |
| 2.10 本章小结 | 41 |
| 第3章 有限马尔可夫决策过程 | 45 |
| 3.1 “智能体-环境”交互接口 | 45 |
| 3.2 目标和收益 | 51 |
| 3.3 回报和分幕 | 52 |
| 3.4 分幕式和持续性任务的统一表示法 | 54 |
| 3.5 策略和价值函数 | 55 |
| 3.6 最优策略和最优价值函数 | 60 |
| 3.7 最优性和近似算法 | 65 |
| 3.8 本章小结 | 66 |
常见术语词
| 书中翻译 | 英文术语 |
|---|---|
| 幕 | episode |
更多推荐
所有评论(0)