目录

目录 页码
第1章 导论 1
   1.1 强化学习 1
   1.2 示例 4
   1.3 强化学习要素 5
   1.4 局限性与适用范围 7
   1.5 扩展实例:井字棋 8
   1.6 本章小结 12
   1.7 强化学习的早期历史 13
第I部分 表格型求解方法 23
第2章 多臂赌博机 25
   2.1 一个k臂赌博机问题 25
   2.2 动作-价值方法 27
   2.3 10臂测试平台 28
   2.4 增量式实现 30
   2.5 跟踪一个非平稳问题 32
   2.6 乐观初始值 34
   2.7 基于置信度上界的动作选择 35
   2.8 梯度赌博机算法 37
   2.9 关联搜索(上下文相关的赌博机) 40
   2.10 本章小结 41
第3章 有限马尔可夫决策过程 45
   3.1 “智能体-环境”交互接口 45
   3.2 目标和收益 51
   3.3 回报和分幕 52
   3.4 分幕式和持续性任务的统一表示法 54
   3.5 策略和价值函数 55
   3.6 最优策略和最优价值函数 60
   3.7 最优性和近似算法 65
   3.8 本章小结 66

常见术语词

书中翻译 英文术语
episode
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐