强化学习中值迭代收敛性推理证明

在开始证明之前，我想说的是定理是证明给怀疑者，如果你对这个定理不怀疑，那么你就不需要证明。接下来直观感受一下强化学习中值迭代的收敛性。假设现在的Agent处于一个state sss 下，想要去找一个optimal state，那怎么去找呢？就是遍历所有的policy能够使得当前的statesss，在遍历的某个policy πx\pi_{x}πx下值最大，也就找到了这个state所对应的.

小小何先生

2527人浏览 · 2020-02-28 22:40:52

小小何先生 · 2020-02-28 22:40:52 发布

在开始证明之前，我想说的是定理是证明给怀疑者，如果你对这个定理不怀疑，那么你就不需要证明。接下来直观感受一下强化学习中值迭代的收敛性。

假设现在的Agent处于一个state $s$ 下，想要去找一个optimal state，那怎么去找呢？就是遍历所有的policy能够使得当前的state $s$ ，在遍历的某个policy $πx\pi_{x}$ 下值最大，也就找到了这个state所对应的最大value，用数学语言描述如下：

$v_{*}(s) = \max_{\pi} v_{\pi} (s)$

不用去怀疑，你一定能找到这样的一个最大的state value，因为你遍历了所有的policy。那能够使得state value最大的那个policy $πx\pi_{x}$ 就是optimal policy $π∗\pi^{*}$ ，即 $πx=π∗\pi_{x} = \pi^{*}$ 。那此时贝尔曼方程就是一个完全收敛的情况，可表示为：

$v_{*}(s)=\max _{a} \mathcal{R}_{s}^{a}+\argmax_{a \in A}\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v\left(s^{\prime}\right)$

如果不收敛，那它(value)肯定还没有到达optimal variable。上述等式在收敛的情况下就会成立，而不仅仅是一个赋值的关系。

观察上述式子，optimal policy是什么？也即每次是如何take action的呢？也就是等式的右端项：

$\pi^{*}(s) = \argmax_{a \in A} \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v\left(s^{\prime}\right)$

那随便给一个状态，我们每次都按照optimal policy去take action，那每次state value都会大于等于之前非最优的policy所得出来的state value吧：

$v_{*}(s) = v_{\pi *}(s) \geq v_{\pi}(s)$

也就是说每次都按照optimal policy去take action，state value其实都会有所改进(或者至少不会比以前的差)。那真实的state value总有一个上界吧，总会收敛吧。

Value Iteration

再来看看值迭代value iteration ，其实就是不断地去套bellman equation，就变成了对于每一个state去计算 $V (s)$ 。

$\begin{aligned} V(s) =R(s)+\max _{a \in A}\gamma \sum_{s^{\prime} \in S} P_{s a}\left(s^{\prime}\right) V\left(s^{\prime}\right) \end{aligned}$

这里是没有策略 $π\pi$ 的，整个方程就是在表达，policy在take action的时候，就是在take $max⁡a∈Aγ∑s′∈SPsa(s′)V(s′)\max _{a \in A}\gamma \sum_{s^{\prime} \in S} P_{sa}\left(s^{\prime}\right)V\left(s^{\prime}\right)$ ，那在值迭代里面，它自己去维护这样一个value function就可以了。policy只要使得后面上述等式后面那个max成立就可以了。

我的微信公众号名称：小小何先生
公众号介绍：主要研究分享深度学习、机器博弈、强化学习等相关内容！期待您的关注，欢迎一起学习交流进步！

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

自动化提示词生成工具盘点

腾讯云开发者社区

AI 浪潮下的锚与帆：工程师文化的变与不变 | 架构师夜生活

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手