强化学习笔记——贝尔曼公式

贝尔曼公式

台XX

1007人浏览 · 2025-04-01 11:19:54

台XX · 2025-04-01 11:19:54 发布

贝尔曼公式，描述当前状态的值函数与后续状态值函数之间的关系，可以通过直接求解或迭代更新将状态值函数 $V_π$ 收敛到真实值，用于评估给定策略 $π$ 的长期回报，进而评价该策略的好坏。

预备知识：

$π(a∣s)\pi(a|s)$ ：s状态采取a动作的概率。
$p_{π}(s^{'}|s)$ ： $π$ 策略时，s状态下，进入 $s^{'}$ 状态的概率。
$p(s^{'}|s,a)$ ：s状态下，采取a动作后，进入 $s^{'}$ 状态的概率。
$p(s^{'}|s)=\pi(a|s)\sum_{a}^{} p(s^{'}|s,a)$
$R_{t+1}$ ：是智能体在状态 $s_t$ (确定量)执行动作 $A_t$ 后，转移到状态 $S_{t+1}$ (未知量)时获得的即时奖励。是一个随机变量。
$R_{t+1}$ 随机性来源：宏观上讲，奖励值应该在环境中获取，但t+1时刻相对于当前(t时刻)来说是“下一个时刻”，因此是一个“未定值”，也就是一个随机变量；微观上讲，智能体在 $s_t$ 状态做出什么动作 $A_t$ ，以及做出确定动作 $a_{t}$ 后进入什么状态 $S_{t+1}$ ，以及进入确定状态 $s_{t+1}$ 后得到多大的奖励值都有可能是随机的，因此下一时刻的奖励值是一个随机变量。并且t时刻以后的奖励，相对t时刻来说，都是随机变量。
$G_{t}$ ：t时刻以后的累计折扣奖励。是一个随机变量
$\begin{equation*} %加*表示不对公式编号 \begin{split} G_{t} &=R_{t+1}+γ^{}R_{t+2}+γ^{2}R_{t+3}+....γ^{tend-t-1}R_{tend}\\ &=R_{t+1}+γG_{t+1}\\ \end{split} \end{equation*}$

贝尔曼公式的样子及其推倒

$V_π(s)$ ： $π$ 策略时，状态值函数；状态s下获得奖励值的期望。 $∀s∈S\forall s \in S$
$\begin{equation*} \begin{split} V_π(s) &=E[ G_{t}|S_t=s ] (定义)\\ &=E[ R_{t+1}|S_t=s ] + γ E[ G_{t+1} | S_t=s ] \\ &=\sum_{ s^{'} } ^{} p_{\pi}( s^{'} | s) \sum_{r}^{} p( r | s^{'} ) r + γ \sum_{ s^{'} }^{} p_{\pi}( s^{'} | s ) E[ G_{t+1} | S_{t+1}=s^{'} ]\\ &=\sum_{a}^{} \pi(a|s)\sum_{s^{'}}^{} p(s^{'}|s,a)\sum_{r}^{} p(r|s^{'})r+γ\sum_{a}^{} \pi(a|s)\sum_{s^{'}}^{} p(s^{'}|s,a)V_π(s^{'})\\ &=\sum_{a}^{} \pi(a|s) \sum_{r}^{} p(r|s,a)r+γ\sum_{a}^{} \pi(a|s)\sum_{s^{'}}^{} p(s^{'}|s,a)V_π(s^{'})\\ &=\sum_{a}^{} \pi(a|s) \left[\sum_{r}^{} p(r|s,a)r+γ\sum_{s^{'}}^{} p(s^{'}|s,a)V_π(s^{'}) \right ](贝尔曼公式)\\ V_π(s) &=E[ G_{t}|S_t=s ] (定义)\\ &=E[ R_{t+1}|S_t=s ] + γ E[ G_{t+1} | S_t=s ] \\ &=r_{\pi}(s) + γ \sum_{ s^{'} }^{} p_{\pi}( s^{'} | s ) E[ G_{t+1} | S_{t+1}=s^{'} ]\\ &=r_{\pi}(s) + γ \sum_{ s^{'} }^{} p_{\pi}( s^{'} | s ) V_π(s^{'})(贝尔曼公式的另一者更简洁的表示形式)\\ 其中& r_{\pi}(s)为，π策略时，s状态本次的奖励的期望\\ r_{\pi}(s)&=\sum_{a}^{} \pi(a|s)\sum_{r}^{} p(r|s,a)r\\ \end{split} \end{equation*}$
向量形式表示
$v_π=r_π+γP_{π} v_{π}$
其中
$v_π = [V_π(s_1),V_π(s_2),...,V_π(s_n)]$
$r_π = [r_π(s_1),r_π(s_2),...,r_π(s_n)]$
$Pπ∈Rn∗n（系数矩阵）P_π \in R^{n*n}（系数矩阵）$

$Q_π(s,a)$ ：动作值函数； $π$ 策略时，状态s下，采取a动作获得奖励值的期望。
关于动作值函数也有一个贝尔曼公式。（暂略）

此时我们再来会看这句话：
贝尔曼公式，描述当前状态的值函数与后续状态值函数之间的关系，可以通过直接求解或迭代更新将状态值函数 $V_π$ 收敛到真实值，用于评估给定策略 $π$ 的长期回报，进而评价该策略的好坏。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git