【强化学习】重要性采样

自信的小螺丝钉

998人浏览 · 2025-11-07 01:41:54

自信的小螺丝钉 · 2025-11-07 01:41:54 发布

重要性采样（Importance Sampling）是一种利用从一个分布中采样得到的数据来估计另一个分布的期望值的方法，在蒙特卡洛方法中是一种常用的技巧，用于提高估计的效率和准确性。这种方法适用于目标分布难以直接采样，或者直接采样效率较低的情况。在强化学习中主要用于解决异策略（Off-policy）学习（参考【强化学习】同策略学习（On-Policy ）与异策略学习（Off-Policy ））中 “数据分布不匹配” 的问题。

异策略学习中，通常存在两个独立的策略：

行为策略（Behavior Policy, $π_β$ ）：负责与环境交互、收集训练数据的策略（可以是旧策略、探索策略，甚至随机策略）。
目标策略（Target Policy, $π_θ$ ）：正在训练的，想要优化和提升的策略。

由于两个策略的决策逻辑不同（比如行为策略偏向 “探索”，目标策略偏向 “利用”），它们生成的数据（状态 - 动作序列）服从完全不同的分布。

如果直接用行为策略收集的数据训练目标策略，会导致估计偏差，这时就可以用到「重要性采样」做分布修正: 通过一个 “权重”，将行为策略的数据 “修正” 为符合目标策略分布的数据，从而消除分布不匹配带来的偏差。

具体来说，假设我们有一个目标分布 $p (x)$ ，我们希望计算函数 $f (x)$ 在该分布下的期望值，但是从分布 $p (x)$ 中采样很困难，或者成本很高。这时我们可以引入一个简单的分布 $q (x)$ ，并从 $q (x)$ 中采样，然后使用重要性采样来估计 $p (x)$ 下的期望值。

根据期望的定义，我们可以将 $p (x)$ 下的期望值写成（连续变量版，如果是离散的，把积分换成求和）：
$E_{X \sim p(x)}[f(X)] = \int f(x)p(x)dx$

如果从 $p (x)$ 中采样比较困难，我们可以引入另一个分布 $q (x)$ ，并对上式进行如下变换：
$E_{X \sim p(x)}[f(X)] = \int f(x)\frac{p(x)}{q(x)}q(x)dx$

上式可以看做是函数 $f(x)\frac{p(x)}{q(x)}$ 在分布 $q (x)$ 下的期望，所以可以将其写为：
$E_{X \sim p(x)}[f(X)] = \int [f(x)\frac{p(x)}{q(x)}]q(x)dx = E_{X \sim q(x)}[f(x)\frac{p(x)}{q(x)}]$

其中， $\frac{p(x)}{q(x)}$ 被称为重要性权重。

在强化学习中，通常需要计算目标策略的期望回报，其中 $p (x)$ 代表目标策略 $\pi(a|s)$ ，而 $q (x)$ 可以代表行为策略 $\pi_b(a|s)$ 。因此，我们可以使用行为策略 $\pi_b$ 与环境交互产生数据，然后用重要性采样来估计目标策略 $\pi$ 的期望回报

重要性采样的方差问题：

虽然重要性采样为我们提供了一种计算不同分布期望值的方法，但它也存在一些问题。其中最主要的问题就是方差问题。当 $\frac{p(x)}{q(x)}$ 的值较大时，会导致估计值的方差很大。特别是在强化学习中，如果目标策略和行为策略差异较大，会导致重要性权重的方差很大，进而导致算法不稳定。

图片参考自从Policy Gradient到PPO的来龙去脉

为了解决这个问题，我们可以采取一些措施，例如：

截断重要性采样（Truncated Importance Sampling）： 当重要性权重超过某个阈值时，将其截断为该阈值，从而降低方差。
使用平滑策略： 尽量使目标策略和行为策略的差异不要太大。

参考：【强化学习教程 16】Off-Policy的策略梯度方法

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git