如何理解强化学习大模型微调中RW模型和RL模型的损失函数

教父爷爷

1547人浏览 · 2025-06-10 12:26:31

教父爷爷 · 2025-06-10 12:26:31 发布

如何理解强化学习大模型微调中RW模型和RL模型的损失函数

一、奖励模型（Reward Model）
- 1.1 背景与目标
- 1.2 损失函数的理解
二、强化学习模型（Reinforce Learning Model）
- 2.1 强化学习模型微调过程
- 2.2 损失函数的理解

一、奖励模型（Reward Model）

奖励模型（Reward Model, RM）损失函数公式为 Pairwise Ranking Loss，具体如下：
$loss(\theta) = - \mathbb{E}_{(x, yw, yl) \in D} \left[ \log \left( \sigma \left( r_\theta(x, yw) - r_\theta(x, yl) \right) \right) \right]$
下面我来逐步解释这个公式：

1.1 背景与目标

给定一个问题 $x$ ，有多个答案，由人工对这些答案进行排序，得到一对（高分答案 $y w$ ，低分答案 $y l$ ）。
奖励模型的目标：让模型给高分答案的打分高于低分答案的打分。

1.2 损失函数的理解

(1) Pairwise 选择

对于每个问题 $x$ ，选出一对答案 $y w$ （较优）和 $y l$ （较差），形成一条训练样本。

(2) 模型打分

$r_\theta(x,y)$ : 模型对答案 $y$ 的打分， $\theta$ 表示参数模型RW

(3) 分数差

$r_\theta(x,yw)-r_\theta(x,yl)$ : 高分答案与低分答案的模型分数差。
希望这个值越大越好！最小化loss，等价于最大化分数差。

(4) Sigmoid函数

$\sigma(z)=\frac{1}{1+e^{-z}}$ : 将分数差映射到0~1之间，作为概率解释
差值越大， $\sigma$ 越接近1，说明模型判别对了的概率越大。

(5) 对数函数

$\log(\sigma(\cdot))$ ：常用于二分类交叉熵损失，对应最大化高分答案概率。

二、强化学习模型（Reinforce Learning Model）

大语言模型微调中训练RL模型最常用的优化方法是近端优化算法（Proximal Policy Optimization, PPO）。其损失函数如下：
$loss(\phi)=\mathbb{E}_{(x,y)\sim D_{\pi_{\phi}}}\left[r_\theta(x,y)-\beta\log\left(\frac{\pi_{\phi}(y|x)}{\pi_{base}(y|x)}\right) \right] +\gamma\mathbb{E}_{x\sim D_{pretrain}}\left[\log(\pi_{\phi}(x))\right]$

2.1 强化学习模型微调过程

(1) 准备数据

从Prompts Dataset（提示语数据集）中取出输入（如：A dog is…），作为模型要生成答案的起点。

(2) 初始语言模型（Base Language Model)

使用经过预训练和有监督微调（SFT）的基础语言模型生成初始输出（如：a furry mammal）。
这个模型参数在RL微调过程中一般保持冻结，不进行反向传播。

(3) 生成调优模型（Tuned Language Model, RL Policy）

复制一份基础模型，作为策略模型（ $\pi_\phi$ ），在强化学习框架下对其进行微调。
该模型会生成新的答案（如：man’s best friend）。

(4) 奖励模型（Reward Model）

用单独训练好的奖励模型对策略模型生成的答案进行打分，分数越高表示越符合人类偏好。

(5) KL惩罚项（约束项）： $-\lambda_{KL}D_{KL}(\pi_{ppo}(y∣x)||\pi_{base}(y∣x))$

比较RL微调模型的输出分布（ $\pi_{ppo}(y∣x)$ ）和基础模型的输出分布（ $\pi_{base}(y∣x)$ ），用KL散度约束两者不能差异太大，防止模式坍缩或偏离原始分布。

(6) 强化学习更新（如PPO）:

使用PPO（Proximal Policy Optimization）等强化学习算法，利用上一步得到的奖励信号，更新策略模型参数： $\phi\leftarrow\phi+\nabla_\phi loss(\phi)$

2.2 损失函数的理解

RL损失函数本质上是在奖励模型打分、人类偏好约束和通用能力三者间平衡，既要输出优质答案，也不能偏离原有分布太远，还要保持通用能力。

(1) 打分部分

$\mathbb{E}_{(x,y)\sim D_{\pi_{\phi}}}\left[r_\theta(x,y)\right]$ ：奖励模型（ $r_\theta$ ）对 RL 模型生成的答案 $y$ 给出分数，分数越高越好。

(2) KL 散度部分

$-\beta\mathbb{E}_{(x,y)\sim D_{\pi_{\phi}}}\left[\log\left(\frac{\pi_{\phi}(y|x)}{\pi_{base}(y|x)}\right)\right]$ ：衡量强化学习微调后的模型分布和原本模型分布的“距离”。防止模式坍缩，即维护模型输出的多样性。

(3) 预训练部分

$+\gamma\mathbb{E}_{x\sim D_{pretrain}}\left[\log(\pi_{\phi}(x))\right]$ ：鼓励 RL 模型不要遗忘预训练阶段学到的知识。让 RL 微调后的模型还能保留通用能力，防止“灾难性遗忘”。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git