大模型训练的核心流程可分为预训练(Pre-Training)后训练(Post-Training) 两阶段,二者协同实现从通用语言理解到任务精准适配的能力跃迁。

一、预训练阶段:构建通用知识基座

模型从海量文本中学习语法、语义、常识和领域知识。常用的方法有:

  • 自回归模型(如GPT系列):通过预测下一个词来训练模型。

  • 自编码模型(如BERT):通过掩码语言模型(Masked Language Modeling, MLM)任务训练模型。

  • 混合方法:结合自回归和自编码的优势(如T5、BART)

预训练过程一般可分为三阶段:

  • 初期训练:学习基础语言统计规律(如词频、共现关系);

  • 中期训练:捕获语法结构及语义关联(如上下文依赖);

  • 退火训练:优化表示空间,增强特征泛化性。

总之预训练阶段的核心目标是使模型掌握语言的通用模式(如BERT的掩码预测、GPT的自回归生成),为下游任务提供知识基础。

二、后训练阶段:对齐人类偏好与领域需求

预训练模型虽具备通用知识,但存在幻觉风险与指令遵循弱的问题。后训练通过微调技术实现:

核心目标:

  • 提升生成质量与事实准确性;

  • 强化指令理解与价值观对齐;

  • 适配专业领域(如医疗、编程)。

关键技术方法:

类别

代表方法

功能

监督微调

SFT、RSFT

基础任务适配与质量筛选

偏好对齐

RLHF、DPO

人类价值观注入与安全控制

策略优化

PPO、GRPO

平衡探索与稳定性

能力增强

思维链、工具调用

复杂推理与工具协作能力强化

后训练流程设计:多环节协同演进

后训练需分阶段组合技术,典型流程如下:

  1. 指令数据构建 收集多场景数据(日常对话、知识问答、代码等),构建任务导向数据集。

  2. 监督微调(SFT) 用指令数据微调模型,建立基础任务能力(如格式遵循、基础推理)。

  3. 拒绝采样微调(RSFT) 通过人工/模型筛选高质量样本,迭代优化生成质量(SFT的强化版)。

  4. 偏好对齐训练 RLHF路径:SFT → 奖励模型训练 → PPO优化; DPO路径:直接利用偏好数据优化策略,跳过奖励模型训练。

  5. 专项能力增强 注入领域知识(如医学术语、城市治理、工业生产)、集成思维链(CoT)提升长程推理、结合工具调用解决复杂问题。

大模型的后训练阶段各方法通常需要多环节组合使用

  1. SFT不可跳过: 直接应用RLHF/DPO会导致强化学习难以收敛(缺乏任务基础)。

  2. 流程灵活组合: 轻量任务可仅用SFT+RSFT;高安全需求任务需SFT→DPO→领域适配。

  3. 新兴范式创新: 如GRPO通过群体输出对比替代PPO的Critic模型,降低计算开销

三、后训练技术路线的另一个角度

我们日常中可能遇到更笼统的说法,用某种名词指代某条技术路线。如:

1. ReFT(强化微调)

核心公式:ReFT = SFT + PPO + 自动化评估
• 流程:

  • 监督微调(SFT):使用标注数据训练模型,建立基础语言能力;

  • 强化学习优化(PPO):通过自动化程序(如规则引擎或参考答案比对)评估模型输出,生成奖励信号,驱动PPO调整参数。

• 优势:

  • 自动化评估:无需人工干预,适用于数学求解、代码生成等客观标准明确的任务;

  • 数据高效:仅需数十条样本即可显著提升效果(如GSM8K数学数据集)。

2. RLHF(基于人类反馈的强化学习)

核心公式:RLHF = SFT + PPO + 人类反馈
• 流程:

  • SFT初步训练:奠定任务基础能力;

  • 人类反馈整合:直接使用人类对输出的评分/排序指导PPO;或训练奖励模型(Reward Model),替代人工生成奖励信号。

• 优势:

  • 主观对齐:使输出更符合人类价值观,适用于对话系统、创意生成等需复杂评判的任务;

• 局限:

  • 人类标注成本高,且可能存在偏好不一致问题。

3. DPO(直接偏好优化)

核心特点:跳过强化学习,采用监督学习直接优化偏好
• 流程:

  • SFT预训练:获得基础模型;

  • 偏好数据构建:收集人类对多个输出的偏好选择(如选择答案A而非B);

  • 损失函数设计:通过参考模型(Reference Model)计算偏好概率差,直接微调参数(如最大化偏好输出概率)。
    • 优势:

  • 训练稳定:避免PPO的探索性试错,收敛更快;

  • 资源高效:无需奖励模型,降低计算复杂度;

• 适用场景:拥有大量人类偏好数据的任务(如安全对齐、风格适配)。

4. RLAIF(基于AI反馈的强化学习)

核心公式:RLAIF = SFT + PPO + AI反馈
• 流程:

  • SFT初始化;

  • AI替代人类:由辅助AI模型(如预训练奖励模型)生成奖励信号,驱动PPO优化;

• 优势:

  • 低成本:减少人类标注依赖,适合规模化应用;

• 局限:

  • 效果高度依赖辅助模型质量,劣质AI反馈可能导致奖励黑客(Reward Hacking)。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐