清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U1:强化学习入门
本单元作为Reinforcement Learning for Sequential Decision and Optimal Control这本书第一单元的读书笔记,算是一个入门的笔记。介绍了强化学习的历史渊源和面临的挑战。这个单元的内容以介绍性的为主,因此就简单写写。

该书由清华大学李升波教授撰写的,主要面向工业控制领域的研究者和工程师,曾获得2024年度Springer中国新发展奖(China New Development Awards)。全书按照原理剖析、主流算法、典型示例的架构,系统地介绍了用于动态系统决策与控制的强化学习方法。全书共分为11章,内容涵盖了强化学习的基本概念、蒙特卡洛法、时序差分法、动态规划法、函数近似法、策略梯度法、近似动态规划、状态约束的处理和深度强化学习等知识点。书籍及源代码下载网站:书籍及代码链接点这里。
文章目录
书籍链接:Reinforcement Learning for Sequential Decision and Optimal Control
本博客作为Reinforcement Learning for Sequential Decision and Optimal Control这本书第一单元的读书笔记,算是一个入门的笔记。介绍了强化学习的历史渊源和面临的挑战。这个单元的内容以介绍性的为主,因此就简单写写。本系列之前博客的链接见系列博客地址。
1.1 强化学习的历史发展
1.1.1 最优控制理论
其实RL和最优控制理论有很深厚的渊源。最优控制与RL在建模上有诸多相似之处,并且最优控制中的诸多方法也被RL所采用。变分、庞特里亚金极大值原理、动态规划(DP)
是最优控制的三大支柱。其中,DP以及其背后的贝尔曼最优化原理是RL的基础,在后面的博客中会详细介绍。
1.1.2 Trial-and-Error Learning
Trial-and-Error Learning主要是模仿生物体的学习过程,通过尝试和错误来学习。通过这种方式可以使得智能体学会区分“好”和“坏”的行为。实际上,这种学习方式在人工智能发展的早期就被提出,如香农的机械老鼠和Donald Michie的MENACE(用于玩tic-tac-toe)。
从Trial-and-Error Learning的思想衍生出著名的Monte Carlo Learning、TD Learning以及Policy Gradient等方法。这些方法会在后续的博客中详细介绍。
1.1.3 强化学习的最新进展
尽管之前已经提出了一些强化学习方法,但是这些方法在处理高维的问题时很难取得好的效果。将深度学习与强化学习结合而产生的深度强化学习(DRL)是强化学习的又一次里程碑。而这种方法的代表作是AlphaGo。在AlphaGo与李世石的比赛中,AlphaGo以4:1的比分战胜了李世石。这次胜利也使得深度学习/强化学习走入了大众的视野,并在近些年来逐渐成为显学。
1.2 强化学习面临的挑战
尽管强化学习在近年来取得了长足的进步,但是仍然面临着一些挑战。这些挑战导致了强化学习还无法在我们日常的生活中的各种应用场景取得广泛的应用。这些挑战主要有以下几个方面。
1.2.1 探索-利用困境

在强化学习中,智能体需要在探索新的行为和利用已有的行为之间取得平衡。如果智能体只是利用已有的行为,那么它就无法发现新的行为,从而无法学习到最优的策略。而如果智能体只是探索新的行为,那么它就无法利用已有的经验,从而无法学习到最优的策略。
1.2.2 不确定性和部分可观测性
传统的强化学习方法主要关注于完全可观测的环境。然而,现实世界中的环境往往是不确定的和部分可观测的,也就是说这里的不是所有的state都是可以观测的,但是state恰恰是强化学习建模的基础。如果存在部分可观测性的话,就需要引入一些对于状态的估计,而这些估计会引入额外的误差。
1.2.3 奖励的延迟
在某些情况下,奖励不是立即给出的,而是具有很大的延迟。这就导致了这些奖励信号经过时间的传递后,会被“稀释”,导致携带不了什么有用的信息,因此会导致学习效果不佳,很难收敛。
1.2.4 安全约束导致的不可行性
安全约束为寻找策略引入了额外的限制条件。而寻找最优策略和确定策略的可行域是两个相互耦合的问题,从而导致求解的困难。
1.2.5 变化的环境
几乎所有学习算法都要求数据独立同分布(IID),强化学习也不例外。然而,强化学习在实际应用中恰恰面临着环境的变化,这就导致了数据的非IID性,从而导致了学习效果的下降。如果环境变化的太快,就可能导致无法学得一个稳定的策略。
1.2.6 泛化能力差
这里的泛化能力查来自于两方面。
一是现有的强化学习方的算法设计与数据来源导致其往往专精于一个特定的任务,而无法泛化到其他的任务。这就导致了强化学习在实际应用中的局限性。二是很多强化学习的任务首先在模拟环境中进行训练,然后再在真实环境中进行测试。然而,模拟环境是对于真实环境的一种简化,可能无法很好的模拟真实环境,从而导致了模型在真实环境中的表现不佳。
本文为博主原创文章,未经博主允许禁止转载。私自转载将追究相关责任。如有问题,欢迎指正。
更多推荐
所有评论(0)