强化学习[page13]【chapter7】时序差分方法算法介绍

其次，式(7.1)中的TD算法仅能估计给定策略的状态值。尽管如此，本节介绍的TD算法非常基础，对理解本章其他算法至关重要。例如，本章介绍的所有算法都属于时序差分学习的范畴。为简洁起见，式(7.2)常被省略，但必须意识到若缺少该式，算法在数学上将不完整。TD 方法的一个特点是，它在每个时间步更新其值估计，而 MC 方法则要等到回合结束才更新。TD学习的核心思想是基于新获得的信息来修正当前对状态值的估

明朝百晓生

592人浏览 · 2025-12-01 15:41:43

明朝百晓生 · 2025-12-01 15:41:43 发布

时序差分学习通常泛指一大类强化学习算法。例如，本章介绍的所有算法都属于时序差分学习的范畴。但本节所讨论的时序差分学习特指一种用于估计状态值的经典算法。TD 方法的一个特点是，它在每个时间步更新其值估计，而 MC 方法则要等到回合结束才更新

TD 算法主要内容

TD(0)：估计状态价值函数 (State-Value Function) V(s)。

Sarsa：估计同轨策略动作价值函数 (On-policy Action-Value Function) Q(s, a)。

Expected Sarsa：估计期望形式的动作价值函数 (Expected Action-Value Function)。

n-step Sarsa：通过n步采样回报估计动作价值函数 Q(s, a)。

Q-learning：直接估计最优动作价值函数 (Optimal Action-Value Function) Q*(s, a)

Robbins-Monro(RM) 算法例子
TD(0）算法描述
TD算法性质分析

一 Robbins-Monro(RM) 算法例子

下面通过三个例子,介绍一下前面学习的RM算法和后面学习的Temporal-Dierence Methods联系

1.1 mean estimation

   $w=E(S)$

S代表随机变量,可观测的值为 idd samples $\begin{Bmatrix} s \end{Bmatrix} of \, \, S$

解:

转换为 root-finding problem

$g(w)=w-E(S)$

含噪声的实际测量值:

   $\tilde{g}(w,\eta)=w-s$

   $= (w-E(S))+(E(S)-s)$

$=g(w)+\eta$

迭代公式为：

   $w_{k+1}=w_k-\alpha_k \tilde{g}(w_k,\eta_k)$

$=w_k-\alpha_k(w_k-s_k)$

1.2 状态值 $v(S)$

$w=E[v(S)]$ , 观测值 based on iid samples $\begin{Bmatrix} s \end{Bmatrix}$ of S

解：

转换为 root-finding problem

   $g(w)=w-E[v(S)]$

  实际样本测量值

   $\tilde{g}(w,\eta)=w-v(s)$ (小写的s是实际采样的值）

$=w-E[v(s)]+E[v(S)]-v(s)$

   $=g(w)+\eta$

  迭代公式：

   $w_{k+1}=w_k-\alpha_k \tilde{g}(w_k,\eta_k)$

   $=w_k-\alpha_k(w_k-v(s_k))$

1.3 bellman 公式 $v(S)=R+\gamma v(S)$

$w=E[R+\gamma v(S)]$ ,

观测值 based on iid samples $\begin{Bmatrix} s \end{Bmatrix}$ of S

R,S are random variables, $\gamma$ is a constant , $v(.)$ is a function

obation $\begin{Bmatrix} s \end{Bmatrix} ,\begin{Bmatrix} r \end{Bmatrix}$ of S,R

转换为 root-finding problem

$g(w)=w-E[R+\gamma V(S)]$

实际样本测量值:

$\tilde{g}(w,\eta)=w-(r+\gamma v(s))$

$=w-E[R+\gamma v(S)]+E[R+\gamma v(S)]-(r+\gamma v(s))$

$=g(w)+\eta$

迭代公式：

$w_{k+1}=w_k-\alpha_k(w_k-(r_k+\gamma v(s_k)))$

二 TD(0）算法描述

给定策略 $\pi$ ，我们的目标是估计所有状态 $s \in S$ 对应的 $V_{\pi}(s)$ 。假设我们拥有遵循策略π生成的经验样本 $s_0,r_1,s_1,....s_t, r_{t+1},s_{t+1}$ ，其中t表示时间步。以下时序差分算法可利用这些样本估计状态值：

其中 $t=0,1,2,...$ .这里 $v_t(s_t)$ 表示t时刻按照策略 $\pi$ 对 $v_{\pi}(s_t)$ 的估计值, $\alpha_t(s_t)$ 表示t时刻状态 $s_t$ 对应的学习率。

需特别注意，在t时刻仅更新被访问状态 $s_t$ 的估值，如式(7.2)所示未访问状态 $s=s_t$ 的估值保持不变。为简洁起见，式(7.2)常被省略，但必须意识到若缺少该式，算法在数学上将不完整。

三 TD算法性质分析

我们主要要理解两个问题

why $\bar{v_t}$ is called TD target?
What is the interpretation of the TD error?

式(7.1)可描述为：

其中

TD target: $\bar{v_t}=r_{t+1}+\gamma v_t(s_{t+1})$

TD error $\delta_t=v_t(s_t)-\bar{v_t}$

3.1 why $\bar{v_t}$ is called TD target?

因为 $\bar{v_t}$ 是算法试图驱使 $v(s_t)$ 逼近的目标值。

将式(7.6)两边同时减去 $\bar{v_t}$ 可得：

取等式两边的绝对值：

由于 $\alpha_t(s)$ 是较小的正数，有 $0<1 -\alpha_t(s)<1$ ，因此：

该不等式具有重要意义，它表明新值 $v_{t+1}(s_t)$ 比旧值 $v(s_t)$ 更加接近 $\bar{v_t}$ 。这就是 $\bar{v_t}$ 被称为TD目标值的原因。

2 What is the interpretation of the TD error?
首先，该误差之所以称为"时序差分"，是因为

$\delta_t= v_t(s_t)-(r_{t+1}+\gamma v_t(s_{t+1}))$

反映了时间步t与t+1之间的差异。

其次，它反应了 $v_t$ 和 $v_{\pi}$ 之间的误差

当 $v_t=v_{\pi}$ 时，TD误差的期望值为：

因此，TD误差不仅反映两个时间步之间的差异，更重要的是反映了估计值 $v_t$ 与真实状态值 $v_{\pi}$ 之间的差异。

3 innovation

TD误差可解释为innovation

表示从经验样本 $\begin{Bmatrix} s_t,r_{t+1},s_{t+1} \end{Bmatrix}$ 中获取的新信息。TD学习的核心思想是基于新获得的信息来修正当前对状态值的估计。innovation在许多估计问题（如卡尔曼滤波[33,34]）中都具有基础性地位。

其次，式(7.1)中的TD算法仅能估计给定策略的状态值。为寻找最优策略，我们仍需进一步计算动作值并进行策略改进，这将在7.2节介绍。尽管如此，本节介绍的TD算法非常基础，对理解本章其他算法至关重要。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git