PPO前传0:强化学习基础
本文介绍了强化学习的核心概念与基础理论框架。首先对比了强化学习(RL)与深度学习(DL)的差异,指出RL以最大化累积奖励为目标,依赖延迟的稀疏反馈和实时交互数据。接着阐述了RL的基本要素:智能体、环境、状态、动作、奖励、策略和回报。文章重点解析了马尔可夫决策过程(MDP)作为RL的数学基础,包括状态转移、奖励函数和折扣因子等核心概念。最后详细介绍了价值函数(状态价值V和动作价值Q)及其递归关系——
一. 强化学习基础概念
1.1 强化学习与深度学习的范式差异
强化学习(RL)与深度学习(DL)在大模型训练中常结合使用,但它们代表着截然不同的学习范式 。
| 特征 | 深度学习(DL) | 强化学习(RL) |
|---|---|---|
| 学习目标 | 从数据中学习高维特征表示,用于分类、回归或生成任务 。 | 寻找最优策略(Policy),使智能体(Agent)获得的累积奖励最大化 。 |
| 反馈机制 | 依赖直接的、即时的、带有标签的样本反馈 。 | 依赖稀疏的、延迟的奖励(Reward)信号 。 |
| 数据特性 | 数据通常假设是独立同分布的,不涉及与环境的实时交互 。 | 数据是实时交互生成的(在线学习),通常是非独立同分布的 。 |
1.2 强化学习核心要素(Agent-Environment 交互模型)
强化学习涉及智能体(Agent)与环境(Environment)之间的持续交互,其核心要素包括 :
- 智能体(Agent):学习器与决策者,负责感知环境状态、接收奖励并作出动作决策 。
- 环境(Environment):智能体外部的所有事物,其状态会受智能体动作的影响而改变,并向智能体反馈相应的奖励和下一个状态 。
- 状态(State, StS_tSt):智能体从环境中获得的、用于决策的信息描述 。
- 动作(Action, AtA_tAt):智能体在某一状态下做出的决策行为 。
- 奖励(Reward, RtR_tRt):环境根据当前状态和智能体的动作所产生的即时反馈信号 。
- 策略(Policy, π\piπ):由观测到的状态决定智能体作出动作的规则或概率分布 。
- 回报(Return, GtG_tGt):从某一时刻 ttt 到任务结束时的未来累积奖励 。
Agent-Environment 交互流程图:

智能体在时刻 ttt 观察到状态 StS_tSt,并根据策略 π\piπ 执行动作 AtA_tAt 。环境根据 AtA_tAt 转移到新的状态 St+1S_{t+1}St+1,并向智能体反馈即时奖励 Rt+1R_{t+1}Rt+1 。这个循环持续进行,直至任务结束 。
二. 马尔可夫决策过程(MDP)与回报机制
2.1 马尔可夫性质与马尔可夫过程
马尔可夫性质(Markov Property)
马尔可夫性质是指系统中下一个状态 St+1S_{t+1}St+1 仅与当前状态 StS_tSt 有关,而与以前的状态 S1,…,St−1S_1, \dots, S_{t-1}S1,…,St−1 无关 。
P[St+1∣St]=P[St+1∣S1,…,St]P[S_{t+1} | S_t] = P[S_{t+1} | S_1, \dots, S_t]P[St+1∣St]=P[St+1∣S1,…,St]
马尔可夫过程(Markov Process, MP)
马尔可夫过程是一个二元组 (S,P)(\mathcal{S}, \mathcal{P})(S,P),满足以下条件 :
- S\mathcal{S}S 是一个有限状态集合(Finite Set of States)。
- P\mathcal{P}P 是状态转移概率矩阵(State Transition Probability Matrix)。
P=(P11⋯P1n⋮⋱⋮Pn1⋯Pnn)\mathcal{P} = \begin{pmatrix} P_{11} & \cdots & P_{1n} \\ \vdots & \ddots & \vdots \\ P_{n1} & \cdots & P_{nn} \end{pmatrix}P= P11⋮Pn1⋯⋱⋯P1n⋮Pnn
马尔可夫过程仅包含状态转移,不包含动作和回报 。
2.2 马尔可夫决策过程(MDP)
MDP 是强化学习的基本数学框架 ,它将动作(策略)和回报考虑在内,是一个五元组 (S,A,P,R,γ)(\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma)(S,A,P,R,γ) 。
强化学习的本质就是给定一个 MDP,寻找最优策略 π\piπ 的方法论 。
- SSS:状态集 (Set of States)
- 表示环境中所有可能的状态,可以是有限集(离散状态空间)或无限集(连续状态空间)。
- 例如,在国际象棋中,SSS 就是所有可能的棋盘布局。
- AAA:动作集 (Set of Actions)
- 表示智能体在任何给定状态下可以采取的所有可能动作,可以是有限集或无限集。
- 例如,在国际象棋中,AAA 就是所有合法的走子。
- PPP:状态转移概率函数 (State Transition Probability Function)
- 定义了智能体在状态 sss 采取动作 aaa 后,转移到下一个状态 s′s's′ 的概率。
- 形式化表示为:P(s′∣s,a)=P(St+1=s′∣St=s,At=a)P(s' | s, a) = P(S_{t+1}=s' | S_t=s, A_t=a)P(s′∣s,a)=P(St+1=s′∣St=s,At=a)
- 核心特性:马尔科夫性 (Markov Property)
- 当前状态 StS_tSt 包含了所有做出最优决策的充分信息。未来的状态只取决于当前状态和当前采取的动作,而与过去的状态和动作无关。
P(St+1∣St,At)=P(St+1∣St,At,St−1,At−1,…)\mathbf{P}(S_{t+1}|S_t, A_t) = \mathbf{P}(S_{t+1}|S_t, A_t, S_{t-1}, A_{t-1}, \ldots)P(St+1∣St,At)=P(St+1∣St,At,St−1,At−1,…)
- 当前状态 StS_tSt 包含了所有做出最优决策的充分信息。未来的状态只取决于当前状态和当前采取的动作,而与过去的状态和动作无关。
- RRR:奖励函数 (Reward Function)
- 定义了智能体在状态 sss 采取动作 aaa 并转移到状态 s′s's′ 时获得的即时奖励。
- 它可以有多种定义方式,常见的有:
- R(s,a)R(s, a)R(s,a): 处于状态 sss 采取动作 aaa 获得的奖励。
- R(s,a,s′)R(s, a, s')R(s,a,s′): 处于状态 sss 采取动作 aaa 转移到 s′s's′ 获得的奖励。
- R(s′)R(s')R(s′): 转移到状态 s′s's′ 获得的奖励。
- 在标准 MDP 中,通常表示为奖励的期望:R(s,a)=E[Rt+1∣St=s,At=a]=∑s′∈SP(s′∣s,a)r(s,a,s′)R(s, a) = E[R_{t+1} | S_t=s, A_t=a] = \sum_{s' \in S} P(s' | s, a) r(s, a, s')R(s,a)=E[Rt+1∣St=s,At=a]=s′∈S∑P(s′∣s,a)r(s,a,s′)
- γ\gammaγ:折扣因子 (Discount Factor)
- γ∈[0,1]\gamma \in [0, 1]γ∈[0,1]。它用于衡量未来奖励相对于即时奖励的重要性。
- 当 γ\gammaγ 接近 0 时,智能体更关注眼前利益(即时奖励)。
- 当 γ\gammaγ 接近 1 时,智能体更具有远见,关注长期回报。
- 它的引入也是为了保证回报(Return)的收敛性,尤其是在连续任务(Episodic Task)中。
- γ∈[0,1]\gamma \in [0, 1]γ∈[0,1]。它用于衡量未来奖励相对于即时奖励的重要性。
2.3 折扣回报(Discounted Return)
由于策略通常是随机的,累计的回报 GtG_tGt 也是一个随机变量 。强化学习通过引入折扣因子 γ\gammaγ 来计算总回报,以权衡当前奖励和未来奖励 。
折扣回报的计算公式:
回报(Return) Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1\text{回报(Return) } G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}回报(Return) Gt=Rt+1+γRt+2+γ2Rt+3+⋯=k=0∑∞γkRt+k+1
- 折扣因子 γ∈[0,1]\gamma \in [0, 1]γ∈[0,1]:
- γ\gammaγ 越大,表示智能体越看重长远奖励(Long-term Reward) 。
- γ\gammaγ 越小,表示智能体越看重当下奖励(Immediate Reward) 。
2.4 目标和策略
MDP 的目标是找到一个最优策略(Optimal Policy)π∗\pi^*π∗,使得智能体在任何状态下都能最大化其期望回报(Expected Return)。
- 策略 π\piπ (Policy)
- 策略 π\piπ 是一个函数,定义了在给定状态下采取各种动作的概率分布。
- π(a∣s)=P(At=a∣St=s)\pi(a|s) = P(A_t=a | S_t=s)π(a∣s)=P(At=a∣St=s)
- 一个确定性策略 π(s)=a\pi(s) = aπ(s)=a 在每个状态只选择一个动作。
- 一个随机性策略 π(a∣s)\pi(a|s)π(a∣s) 在每个状态根据概率分布选择动作。
三. 价值函数与贝尔曼方程
价值函数是判断一个动作或策略优劣的工具,它衡量的是未来的累计奖励(回报的期望) 。
3.1 状态价值函数(State-Value Function, VπV^\piVπ)
状态价值函数 Vπ(s)V^\pi(s)Vπ(s) 衡量的是从某一状态 sss 出发,遵循策略 π\piπ 所能获得的预期折扣回报(Expected Discounted Return) 。
定义公式:
Vπ(s)=Eπ[Gt∣St=s]V^\pi(s) = \mathbb{E}_\pi [G_t | S_t = s]Vπ(s)=Eπ[Gt∣St=s]
- 直观理解:反映从该状态出发,按照策略 π\piπ 决策后,能获得的平均长期收益 。
3.2 状态-动作价值函数(Action-Value Function, QπQ^\piQπ)
状态-动作价值函数 Qπ(s,a)Q^\pi(s, a)Qπ(s,a) 衡量的是在某一状态 sss 下,执行某个动作 aaa 后,再遵循策略 π\piπ 所能获得的预期折扣回报 。
定义公式:
Qπ(s,a)=Eπ[Gt∣St=s,At=a]Q^\pi(s, a) = \mathbb{E}_\pi [G_t | S_t = s, A_t = a]Qπ(s,a)=Eπ[Gt∣St=s,At=a]
- 直观理解:反映在状态 sss 执行动作 aaa 的长期价值,与最终目标的接近程度 。Qπ(s,a)Q^\pi(s, a)Qπ(s,a) 越大,该状态-动作对与最终目标越接近 。
3.3 价值函数之间的贝尔曼方程
核心思想:当前状态的价值等于当前获得的即时奖励加上未来所有奖励的折扣期望值 。
贝尔曼方程是强化学习的基石,它通过递归形式将复杂问题拆解为 “当前”和“未来” 两部分。
它将价值函数分解成两部分:即时奖励和下一状态的折扣价值。用于描述值函数 VVV 和 QQQ 之间的递归关系 。
3.3.1 Vπ(s)V^\pi(s)Vπ(s) 的贝尔曼方程
状态价值 Vπ(s)V^\pi(s)Vπ(s) 是该状态下所有动作的 Qπ(s,a)Q^\pi(s, a)Qπ(s,a) 的加权平均(权重为策略的动作概率 π(a∣s)\pi(a|s)π(a∣s)) 。
Vπ(s)=∑a∈Aπ(a∣s)Qπ(s,a)V^\pi(s) = \sum_{a \in \mathcal{A}} \pi(a|s) Q^\pi(s, a)Vπ(s)=a∈A∑π(a∣s)Qπ(s,a)
Vπ(s)V^\pi(s)Vπ(s) 可以用即时奖励和下一状态的价值来递归地表达,将 Qπ(s,a)Q^\pi(s, a)Qπ(s,a) 展开后得到 Vπ(s)V^\pi(s)Vπ(s) 的贝尔曼方程:
Vπ(s)=∑a∈Aπ(a∣s)(R(s,a)+γ∑s′∈SP(s′∣s,a)Vπ(s′))V^\pi(s) = \sum_{a \in A} \pi(a|s) \left( R(s, a) + \gamma \sum_{s' \in S} P(s' | s, a) V^\pi(s') \right)Vπ(s)=a∈A∑π(a∣s)(R(s,a)+γs′∈S∑P(s′∣s,a)Vπ(s′))
其中:
-
∑a∈Aπ(a∣s)\sum_{a \in A} \pi(a|s)∑a∈Aπ(a∣s): 智能体在状态 sss 会根据策略 π(a∣s)\pi(a|s)π(a∣s) 采取不同的动作 aaa,因此需要对所有可能的动作求期望。
-
期望即时奖励 R(s,a)R(s, a)R(s,a): 在状态 sss 采取动作 aaa 的期望即时奖励。
-
下一状态的期望折扣价值 ( γ∑s′∈SP(s′∣s,a)Vπ(s′)\gamma \sum_{s' \in S} P(s' | s, a) V^\pi(s')γ∑s′∈SP(s′∣s,a)Vπ(s′)):
- 当智能体采取动作 aaa 后,会以 P(s′∣s,a)P(s' | s, a)P(s′∣s,a) 的概率转移到下一个状态 s′s's′。
- 在 s′s's′ 处的未来价值是 Vπ(s′)V^\pi(s')Vπ(s′)。
- 由于 Vπ(s′)V^\pi(s')Vπ(s′) 是下一时刻的价值,因此需要乘以折扣因子 γ\gammaγ。
- 需要对所有可能的下一状态 s′s's′ 求期望(即加权平均)。
3.3.2 Qπ(s,a)Q^\pi(s, a)Qπ(s,a) 的贝尔曼方程
Qπ(s,a)Q^\pi(s, a)Qπ(s,a) 可以用即时奖励和下一状态的动作价值来递归地表达:
Qπ(s,a)=R(s,a)+γ∑s′∈SP(s′∣s,a)(∑a′∈Aπ(a′∣s′)Qπ(s′,a′))Q^\pi(s, a) = R(s, a) + \gamma \sum_{s' \in S} P(s' | s, a) \left( \sum_{a' \in A} \pi(a'|s') Q^\pi(s', a') \right)Qπ(s,a)=R(s,a)+γs′∈S∑P(s′∣s,a)(a′∈A∑π(a′∣s′)Qπ(s′,a′))
关系联立:
价值函数之间可以互相表达,进一步加深理解:
- VπV^\piVπ 和 QπQ^\piQπ 之间的关系:
Vπ(s)=∑a∈Aπ(a∣s)Qπ(s,a)V^\pi(s) = \sum_{a \in A} \pi(a|s) Q^\pi(s, a)Vπ(s)=a∈A∑π(a∣s)Qπ(s,a)
(状态价值是所有可能的动作价值在策略 π\piπ 下的期望) - QπQ^\piQπ 和 VπV^\piVπ 之间的关系:
Qπ(s,a)=R(s,a)+γ∑s′∈SP(s′∣s,a)Vπ(s′)Q^\pi(s, a) = R(s, a) + \gamma \sum_{s' \in S} P(s' | s, a) V^\pi(s')Qπ(s,a)=R(s,a)+γs′∈S∑P(s′∣s,a)Vπ(s′)
3.4 贝尔曼最优方程
强化学习的根本目标是找到最优策略 π∗\pi^*π∗,使得长期回报最大化 。最优值函数 V∗(s)V^*(s)V∗(s) 和 Q∗(s,a)Q^*(s, a)Q∗(s,a) 代表所有策略中长期奖励的最大值 。
贝尔曼最优方程描述了最优策略 π∗\pi^*π∗ 下的价值函数(V∗V^*V∗ 和 Q∗Q^*Q∗)必须满足的关系。它是一个非线性方程组。
3.4.1 最优状态价值函数 V∗(s)V^*(s)V∗(s) 的贝尔曼最优方程
最优状态价值 V∗(s)V^*(s)V∗(s) 等于在状态 sss 时,选择能带来最大化期望回报的动作所获得的动作价值。
V∗(s)=maxa∈AQ∗(s,a)V^*(s) = \max_{a \in A} Q^*(s, a)V∗(s)=a∈AmaxQ∗(s,a)
将其展开,结合 QQQ 和 VVV 的关系:
V∗(s)=maxa∈A(R(s,a)+γ∑s′∈SP(s′∣s,a)V∗(s′))V^*(s) = \max_{a \in A} \left( R(s, a) + \gamma \sum_{s' \in S} P(s' | s, a) V^*(s') \right)V∗(s)=a∈Amax(R(s,a)+γs′∈S∑P(s′∣s,a)V∗(s′))
深入解析:
这里的核心是 max\mathbf{\max}max 运算符,它保证了智能体在每一步都采取贪婪(Greedy)的动作,从而使整体回报最大化。求解这个方程就相当于找到了最优策略 π∗\pi^*π∗。
3.4.2 最优动作价值函数 Q∗(s,a)Q^*(s, a)Q∗(s,a) 的贝尔曼最优方程
最优动作价值 Q∗(s,a)Q^*(s, a)Q∗(s,a) 等于采取动作 aaa 获得的即时奖励,加上转移到下一状态 s′s's′ 后,从 s′s's′ 开始遵循最优策略所能获得的最大期望回报。
Q∗(s,a)=R(s,a)+γ∑s′∈SP(s′∣s,a)(maxa′∈AQ∗(s′,a′))Q^*(s, a) = R(s, a) + \gamma \sum_{s' \in S} P(s' | s, a) \left( \max_{a' \in A} Q^*(s', a') \right)Q∗(s,a)=R(s,a)+γs′∈S∑P(s′∣s,a)(a′∈AmaxQ∗(s′,a′))
或者结合 V∗V^*V∗ 和 Q∗Q^*Q∗ 的关系:
Q∗(s,a)=R(s,a)+γ∑s′∈SP(s′∣s,a)V∗(s′)Q^*(s, a) = R(s, a) + \gamma \sum_{s' \in S} P(s' | s, a) V^*(s')Q∗(s,a)=R(s,a)+γs′∈S∑P(s′∣s,a)V∗(s′)
3.4.3 最优策略与最优方程的关系
一旦我们获得了 V∗(s)V^*(s)V∗(s) 或 Q∗(s,a)Q^*(s, a)Q∗(s,a),就可以很容易地确定最优策略 π∗\pi^*π∗。
- 基于 V∗(s)V^*(s)V∗(s) 的最优策略(确定性):
π∗(s)=argmaxa∈A(R(s,a)+γ∑s′∈SP(s′∣s,a)V∗(s′))\pi^*(s) = \underset{a \in A}{\arg\max} \left( R(s, a) + \gamma \sum_{s' \in S} P(s' | s, a) V^*(s') \right)π∗(s)=a∈Aargmax(R(s,a)+γs′∈S∑P(s′∣s,a)V∗(s′))
(在 sss 处选择能够最大化下一状态的(折扣)价值加上即时奖励的动作) - 基于 Q∗(s,a)Q^*(s, a)Q∗(s,a) 的最优策略(确定性):
π∗(s)=argmaxa∈AQ∗(s,a)\pi^*(s) = \underset{a \in A}{\arg\max} Q^*(s, a)π∗(s)=a∈AargmaxQ∗(s,a)
(在 sss 处,选择具有最大 QQQ 值的动作)
贝尔曼方程不仅仅是数学表达式,它们是强化学习算法设计的核心思想:
- 策略评估 (Policy Evaluation): 使用贝尔曼期望方程(通常通过迭代、线性方程组求解等方法)来计算给定策略 π\piπ 的 VπV^\piVπ 或 QπQ^\piQπ。
- 策略改进 (Policy Improvement): 基于当前的 VπV^\piVπ 或 QπQ^\piQπ,使用贪婪策略(即 argmax\arg\maxargmax 操作)来生成一个新的、改进的策略 π′\pi'π′。
- 值迭代 (Value Iteration) / 策略迭代 (Policy Iteration): 这两个核心的动态规划算法都是基于贝尔曼最优方程和贝尔曼期望方程的交替使用来实现的。它们是精确求解 MDP 的方法。
四. 强化学习主要算法方法论
强化学习的目标(寻找最优策略)可通过三大方法论实现:
- 基于价值函数的方法
- 基于策略的方法
- Actor-Critic融合价值和策略的方法
4.1 基于价值函数(Value-Based)的学习方法
核心目标是通过学习状态价值函数 V(s)V(s)V(s) 或动作价值函数 Q(s,a)Q(s, a)Q(s,a),然后通过贪心选择(π(s)=argmaxaQ(s,a)\pi(s) = \operatorname{argmax}_a Q(s, a)π(s)=argmaxaQ(s,a))间接推导出最优策略 。
| 特征 | 描述 |
|---|---|
| 目标 | 学习环境中的价值函数 V(s)V(s)V(s) 或 Q(s,a)Q(s, a)Q(s,a)。 |
| 关键思想 | 通过评估每个状态(或状态-动作对)的长期价值,间接推导出最优策略。 |
| 策略派生 | 贪心选择最大 QQQ 值的动作(argmax\operatorname{argmax}argmax 操作)。 |
| 典型算法 | Q-learning (off-policy) 、SARSA (on-policy) 、DQN (结合深度神经网络的 Q-learning) 。 |
| 适合场景 | 稳定性高;适合离散动作空间。 |
| 局限性 | 难以直接处理连续动作空间;策略隐含为“贪心”,可能缺乏探索性 。 |
4.2 基于策略(Policy-Based)的学习方法
核心目标是直接优化策略函数 πθ(a∣s)\pi_\theta(a|s)πθ(a∣s)(即状态到动作的映射),通过梯度上升法最大化期望奖励 J(π)J(\pi)J(π) 。
| 特征 | 描述 |
|---|---|
| 目标 | 直接学习策略函数 π(a∣s)\pi(a|s)π(a∣s)。 |
| 关键思想 | 通过调整策略参数 θ\thetaθ(例如神经网络的权重),直接输出动作的概率分布。 |
| 策略派生 | 按概率采样动作,或选择概率最高的动作 。 |
| 典型算法 | REINFORCE、TRPO、PPO 、GRPO 。 |
| 适合场景 | 直接处理连续动作空间;能学习随机策略(鼓励探索) 。 |
| 局限性 | 训练方差大(不稳定),收敛较慢 。 |
4.3 Actor-Critic(AC)学习方法:
Actor-Critic架构将基于策略和基于价值的估计解耦到两个网络中,实现并行学习和相互指导,典型的应用就是PPO算法的训练。
| 角色 | 模型参数 | 优化目标 | 损失函数/信号 |
|---|---|---|---|
| Actor | θ\thetaθ (πθ\pi_\thetaπθ) | 最大化期望回报 J(θ)J(\theta)J(θ) | 优势函数 A^t\hat{A}_tA^t (指导信号) |
| Critic | ϕ\phiϕ (VϕV_\phiVϕ) | 最小化价值预测误差 | 均方误差 (MSE) LVF\mathbf{L^{\mathbf{VF}}}LVF (学习信号) |
Critic 网络的优化目标:
Critic 通过最小化其预测值 Vϕ(st)V_\phi(s_t)Vϕ(st) 与目标价值 GttargG_t^{\text{targ}}Gttarg 之间的误差来训练:
LVF(ϕ)=Et[(Gttarg−Vϕ(st))2]\mathbf{L}^{\mathbf{VF}}(\phi) = \mathbb{E}_t \left[\left(G_t^{\text{targ}} - V_\phi(s_t)\right)^2\right]LVF(ϕ)=Et[(Gttarg−Vϕ(st))2]
Actor 网络的优化目标:
Actor\text{Actor}Actor 通过 A^t\hat{A}_tA^t 指导策略梯度更新:
∇θJ(θ)∝∇θlogπθ(at∣st)A^t\nabla_\theta J(\theta) \propto \nabla_\theta \log \pi_\theta(a_t \mid s_t) \hat{A}_t∇θJ(θ)∝∇θlogπθ(at∣st)A^t
4.4 策略迭代与价值迭代
这两种是求解 MDP 的经典方法,常用于模型已知(Model-Known) 时的动态规划(DP) 。
| 方法 | 核心思想 | 关注点 |
|---|---|---|
| 价值迭代 | 先搞清楚所有动作的好坏程度(价值),再决定怎么走 。 | 主要精力放在迭代更新价值函数 VVV 上,策略是价值收敛后一次性推导出来的 。 |
| 策略迭代 | 先有一个走法(策略),再评估走法好不好,再改进走法,不断循环 。 | 在“评估当前策略”(Policy Evaluation)和“基于评估改进策略”(Policy Improvement)两个步骤间交替循环 。 |
五. 求解最优价值函数或最优策略的方法
绝大多情况下,往往模型是未知的(Model-Free),因此我们需要通过与环境交互、采样经验数据来估计价值函数或寻找最优策略 。
5.1 蒙特卡洛方法(MC)
MC 方法是一种统计估计方法,通过大量采样回合的平均来估计值函数 。
- 思路:通过完整的轨迹(从开始到终止状态的序列)来计算真实回报 GtG_tGt,并用其均值来估计值函数 V(s)V(s)V(s) 或 Q(s,a)Q(s, a)Q(s,a) 。
动作价值估计 Qπ(s,a)≈1N∑i=1NGt(i)∣St=s,At=a\text{动作价值估计 } Q^\pi(s, a) \approx \frac{1}{N} \sum_{i=1}^{N} G_t^{(i)} | S_t = s, A_t = a动作价值估计 Qπ(s,a)≈N1i=1∑NGt(i)∣St=s,At=a
- 更新方式:需要等待一个完整回合结束后才能进行更新 。
- 统计特性:无偏估计,但由于需要经历多次随机状态和动作,方差大(随机性选择一条轨迹) 。
5.2 时序差分学习(Temporal-Difference Learning, TD)
TD 学习的核心突破在于实现了增量式学习,不必等到一个完整的回合结束,而是在每个时间步即可更新价值估计 。
- 思路:TD 方法使用自举法(Bootstrapping),即用下一个状态的估计值函数 V(St+1)V(S_{t+1})V(St+1) 来估计当前状态的值函数 V(St)V(S_t)V(St) 。
TD 值函数更新公式:
V(St)←V(St)+α[Rt+1+γV(St+1)−V(St)]⏟TD Error (δt)V(S_t) \leftarrow V(S_t) + \alpha \underbrace{\left[R_{t+1} + \gamma V(S_{t+1}) - V(S_t)\right]}_{\text{TD Error } (\delta_t)}V(St)←V(St)+αTD Error (δt)
[Rt+1+γV(St+1)−V(St)]
-
TD 目标(TD Target):Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1})Rt+1+γV(St+1) 。
-
TD 误差(TD Error) δt\delta_tδt:TD 目标与当前估计值 V(St)V(S_t)V(St) 之差,用于指导更新 。
-
更新方式:增量式更新,每获得一个时间步的经验就立即更新 。
-
统计特性:有偏估计(因为 V(St+1)V(S_{t+1})V(St+1) 本身也是估计值) 。但是,由于只用到了一步随机状态和动作,其方差比 MC 方法小 。
-
典型算法:SARSA、Q-learning(MC/TD 方法的延展) 。
5.3 GAE
在实际应用中,GAE\text{GAE}GAE的引入,旨在平衡低方差(单步 TD\text{TD}TD 估计)与低偏差(蒙特卡洛估计)之间的矛盾。
GAE 的数学形式:
A^tGAE(γ,λ)=∑l=0∞(γλ)lδt+l\hat{A}_t^{\text{GAE}(\gamma, \lambda)} = \sum_{l=0}^{\infty} (\gamma\lambda)^l \delta_{t+l}A^tGAE(γ,λ)=l=0∑∞(γλ)lδt+l
其中 δt=rt+1+γVϕ(st+1)−Vϕ(st)\delta_t = r_{t+1} + \gamma V_\phi(s_{t+1}) - V_\phi(s_t)δt=rt+1+γVϕ(st+1)−Vϕ(st) 是单步 TD\mathbf{TD}TD 残差。
| 估计方法 | λ\lambdaλ 值 | 偏差-方差特点 | 核心依赖 |
|---|---|---|---|
| 单步 TD | λ→0\lambda \to 0λ→0 | 高偏差(依赖 VϕV_\phiVϕ 准确性),低方差 | Critic VϕV_\phiVϕ 的单步预测 |
| 蒙特卡洛 | λ→1\lambda \to 1λ→1 | 低偏差(接近真实 GtG_tGt),高方差 | 完整随机轨迹的奖励 |
| GAE | λ≈0.95\lambda \approx 0.95λ≈0.95 | 平衡偏差和方差 | 多步 TD\text{TD}TD 估计的指数加权平均 |
GAE 的工程优势: 通过 λ\lambdaλ 参数,GAE\text{GAE}GAE 允许策略主要依赖于近期的、相对可靠的奖励和价值预测,同时保持对长期回报的一定关注。
更多推荐
所有评论(0)