强化学习基础原理详解与核心公式推导

一、引言

强化学习(Reinforcement Learning, RL)是近年来人工智能领域的研究热点之一。不同于监督学习和无监督学习,强化学习更贴近人类和动物学习行为的方式:通过与环境的互动来获得经验,从而学习做决策的策略。

本文将系统性介绍强化学习的基本原理、重要概念以及核心公式的数学推导,帮助你构建起对强化学习的坚实理论基础。


二、马尔可夫决策过程(MDP)

强化学习问题通常建模为一个马尔可夫决策过程(Markov Decision Process, MDP),形式化地定义为一个五元组:

M = ( S , A , P , R , γ ) \mathcal{M} = (\mathcal{S}, \mathcal{A}, P, R, \gamma) M=(S,A,P,R,γ)

  • S \mathcal{S} S:状态空间(States)
  • A \mathcal{A} A:动作空间(Actions)
  • P ( s ′ ∣ s , a ) P(s'|s,a) P(ss,a):状态转移概率,即执行动作 a a a 后从状态 s s s 转移到状态 s ′ s' s 的概率
  • R ( s , a ) R(s,a) R(s,a):奖励函数,表示在状态 s s s 下执行动作 a a a 所获得的即时奖励
  • γ ∈ [ 0 , 1 ) \gamma \in [0,1) γ[0,1):折扣因子,衡量未来奖励的重要性

MDP 的核心假设是马尔可夫性:未来只依赖当前状态与动作,而与历史无关。


三、策略与价值函数

1. 策略(Policy)

策略是智能体在每个状态下选择动作的概率分布函数:

π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t = a | S_t = s) π(as)=P(At=aSt=s)

也可以是确定性的策略:

π ( s ) = a \pi(s) = a π(s)=a

2. 回报(Return)

智能体的目标是最大化累积奖励,也称为回报

G t = ∑ k = 0 ∞ γ k R t + k + 1 G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} Gt=k=0γkRt+k+1

3. 状态价值函数(State-Value Function)

状态价值函数 V π ( s ) V^\pi(s) Vπ(s) 表示从状态 s s s 出发,遵循策略 π \pi π 的期望累积奖励:
V π ( s ) = E π [ ∑ t = 0 ∞ γ t R ( s t , a t , s t + 1 ) ∣ s 0 = s ] V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t, s_{t+1}) \mid s_0 = s \right] Vπ(s)=Eπ[t=0γtR(st,at,st+1)s0=s]

贝尔曼方程(Bellman Equation):
V π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) + γ V π ( s ′ ) ] V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s'} P(s'|s, a) \left[ R(s, a, s') + \gamma V^\pi(s') \right] Vπ(s)=aπ(as)sP(ss,a)[R(s,a,s)+γVπ(s)]
推导:将累积奖励分解为即时奖励 R ( s , a , s ′ ) R(s, a, s') R(s,a,s) 和未来折扣奖励 γ V π ( s ′ ) \gamma V^\pi(s') γVπ(s) 的期望。

4. 动作价值函数(State-Action-Value Function)(Q-Function)

动作价值函数 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a) 表示在状态 s s s 下执行动作 a a a 后遵循策略 π \pi π 的期望累积奖励:
Q π ( s , a ) = E π [ ∑ t = 0 ∞ γ t R ( s t , a t , s t + 1 ) ∣ s 0 = s , a 0 = a ] Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t, s_{t+1}) \mid s_0 = s, a_0 = a \right] Qπ(s,a)=Eπ[t=0γtR(st,at,st+1)s0=s,a0=a]

贝尔曼方程
Q π ( s , a ) = ∑ s ′ P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) + γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^\pi(s, a) = \sum_{s'} P(s'|s, a) \left[ R(s, a, s') + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') \right] Qπ(s,a)=sP(ss,a)[R(s,a,s)+γaπ(as)Qπ(s,a)]


四. 最优贝尔曼方程(Bellman Optimality Equation)

最优策略 π ∗ \pi^* π 满足:
V ∗ ( s ) = max ⁡ a ∑ s ′ P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) + γ V ∗ ( s ′ ) ] V^*(s) = \max_a \sum_{s'} P(s'|s, a) \left[ R(s, a, s') + \gamma V^*(s') \right] V(s)=amaxsP(ss,a)[R(s,a,s)+γV(s)]
Q ∗ ( s , a ) = ∑ s ′ P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) + γ max ⁡ a ′ Q ∗ ( s ′ , a ′ ) ] Q^*(s, a) = \sum_{s'} P(s'|s, a) \left[ R(s, a, s') + \gamma \max_{a'} Q^*(s', a') \right] Q(s,a)=sP(ss,a)[R(s,a,s)+γamaxQ(s,a)]
意义:最优动作是使得当前奖励与未来最优状态价值的加权和最大化的动作。


五、强化学习算法简述

1. 基于值的方法

Q-learning(离策略 Off-policy)

Q ( s , a ) ← Q ( s , a ) + α [ R + γ max ⁡ a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ] Q(s,a) \leftarrow Q(s,a) + \alpha \left[ R + \gamma \max_{a'} Q(s',a') - Q(s,a) \right] Q(s,a)Q(s,a)+α[R+γamaxQ(s,a)Q(s,a)]

SARSA(在策略 On-policy)

Q ( s , a ) ← Q ( s , a ) + α [ R + γ Q ( s ′ , a ′ ) − Q ( s , a ) ] Q(s,a) \leftarrow Q(s,a) + \alpha \left[ R + \gamma Q(s',a') - Q(s,a) \right] Q(s,a)Q(s,a)+α[R+γQ(s,a)Q(s,a)]

2. 基于策略的方法

通过优化策略本身,而不是显式学习值函数。

Policy Gradient

目标函数为:

J ( θ ) = E π θ [ G t ] J(\theta) = \mathbb{E}_{\pi_\theta}[G_t] J(θ)=Eπθ[Gt]

梯度推导公式(REINFORCE):

∇ θ J ( θ ) = E π θ [ ∇ θ log ⁡ π θ ( a ∣ s ) ⋅ Q π θ ( s , a ) ] \nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a|s) \cdot Q^{\pi_\theta}(s,a) \right] θJ(θ)=Eπθ[θlogπθ(as)Qπθ(s,a)]

3. Actor-Critic 方法

将策略函数(Actor)和价值函数(Critic)结合起来:

  • Actor:更新策略 π θ \pi_\theta πθ
  • Critic:评估当前策略下的值函数 V w ( s ) V_w(s) Vw(s)

优点是可以减少 Policy Gradient 中的高方差。


六、结语

强化学习融合了控制论、博弈论、运筹学与机器学习等多个领域的思想,是构建智能体的一种重要方式。理解其基础原理和核心公式,是学习深度强化学习、AlphaGo、自动驾驶等高阶应用的关键第一步。

如果你对本系列感兴趣,欢迎点赞 + 收藏 + 关注,我将在后续文章中介绍:

  • 深度强化学习(DQN、DDPG、PPO、A3C)
  • 策略梯度的推导与实现
  • 强化学习的代码实战(基于Python和PyTorch)
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐