摘要:我们推出了Mistral的第一个推理模型Magistral,以及我们自研的可扩展强化学习(RL)流程。我们没有依赖现有实现和从先前模型中提取的RL轨迹,而是采用了一种全新的方法,完全依赖于我们自己的模型和基础设施。值得注意的是,我们展示了一个堆栈,使我们能够探索大型语言模型(LLM)纯强化学习训练的极限,提出了一种强制模型使用推理语言的简单方法,并证明仅对文本数据进行强化学习即可保持初始检查点的大部分能力。我们发现,对文本进行强化学习可以保持或改善多模态理解、指令遵循和函数调用能力。我们推出了仅使用强化学习在Mistral Medium 3上进行推理训练的Magistral Medium,并开源了Magistral Small(Apache 2.0),其中还包括了Magistral Medium的冷启动数据。Huggingface链接:Paper page - Magistral,论文链接:Magistral

研究背景和目的

研究背景

随着人工智能技术的快速发展,大型语言模型(LLMs)在多个领域展现出了卓越的性能,尤其是在自然语言处理、数学推理和编程任务中。然而,尽管这些模型在逻辑推理、数学和编程方面取得了显著进展,它们在需要深厚领域知识和复杂推理能力的任务上,如医疗诊断、科学问题解答等,仍然面临巨大挑战。这些任务往往要求模型不仅能够理解文本,还需要结合多模态信息(如图像、图表等)进行综合分析和推理。

强化学习(RL)作为一种有效的优化方法,已经在多个领域证明了其提升模型性能的能力。特别是在需要长期规划和复杂决策的任务中,RL通过让模型在与环境的交互中学习最优策略,展现出了独特的优势。然而,将RL应用于LLMs,尤其是为了提升其在复杂推理任务上的表现,仍然是一个相对未被充分探索的领域。

Mistral作为人工智能领域的重要参与者,一直致力于推动LLMs的发展。为了进一步提升LLMs的推理能力,Mistral决定开发自己的推理模型,并构建一个可扩展的RL流程,以探索纯RL训练在提升LLMs推理能力方面的潜力。

研究目的

本研究的主要目的是开发Mistral的第一个推理模型Magistral,并通过纯RL训练来探索LLMs在复杂推理任务上的极限。具体目标包括:

  1. 构建可扩展的RL流程:设计一个不依赖于现有实现和从先前模型中提取的RL轨迹的RL流程,完全基于Mistral自己的模型和基础设施。
  1. 提升推理能力:通过纯RL训练,提升LLMs在数学、编程和STEM(科学、技术、工程和数学)领域的推理能力。
  1. 探索多模态推理:研究RL在仅使用文本数据的情况下,是否能保持或提升模型的多模态理解能力。
  1. 开源模型:开源Magistral Small模型,并分享训练过程中的经验和见解,以促进社区的发展。

研究方法

模型架构

Magistral模型基于Mistral Small 3和Mistral Medium 3模型构建,分别对应Magistral Small和Magistral Medium。这两个模型在Mistral的预训练模型基础上,通过RL流程进行微调,以提升其推理能力。

强化学习流程
  1. 算法选择:采用Group Relative Policy Optimization(GRPO)算法作为RL算法,该算法去除了PPO中的“批评模型”,并通过组归一化优势来计算基线,以提高训练的稳定性。
  1. 奖励塑造:设计了包括格式、正确性、长度和语言一致性在内的四维奖励函数,以指导模型生成符合要求的回答。特别是,通过语言一致性奖励,强制模型使用与用户相同的语言进行推理。
  1. 多阶段训练:训练过程分为多个阶段,每个阶段使用不同难度的数据,并逐步增加生成长度的上限,以防止模型生成长度停滞。
基础设施

采用分布式RL训练系统,包括训练器、生成器和验证器三种工作节点。训练器维护模型权重的主要副本并执行梯度更新,生成器使用最新策略返回完成结果,验证器评估生成结果并返回奖励。通过异步生成和权重广播机制,提高训练效率。

数据集构建
  1. 数学问题:从多个来源收集数学问题,经过格式过滤和难度过滤,构建了一个包含约3.8万个数学问题的数据集。
  1. 编程问题:从代码竞赛平台收集代码问题,包括问题描述、正确解决方案和相关测试用例。经过处理,得到了一个包含约3.5万个编程问题的数据集。

研究结果

模型性能
  1. Magistral Medium:在多个数学、编程和STEM基准测试上,Magistral Medium展现出了显著的性能提升。特别是在AIME'24基准测试上,Magistral Medium的准确率相比初始Mistral Medium 3模型提升了近50%。
  1. Magistral Small:通过结合监督微调(SFT)和RL训练,Magistral Small在多个基准测试上也取得了优异的表现。相比仅使用SFT或仅使用RL训练的模型,Magistral Small展现出了更好的性能。
多模态能力

尽管RL训练仅使用了文本数据,但Magistral模型在多模态基准测试上也展现出了良好的性能,甚至在某些测试上相比初始模型还有所提升。这表明RL训练有助于提升模型的多模态理解能力。

语言一致性

通过语言一致性奖励,Magistral模型能够生成与用户相同语言的回答,即使在多语言环境下也能保持良好的性能。这为模型在多语言环境下的应用提供了可能。

研究局限

  1. 计算资源限制:由于计算资源的限制,本研究未能在更大规模的模型上验证RL训练的效果。未来研究可以探索在更大规模模型上的应用。
  1. 数据集多样性:尽管本研究构建了包含数学和编程问题的数据集,但数据集的多样性仍然有限。未来研究可以探索更多类型的问题和数据集,以进一步提升模型的泛化能力。
  1. 奖励函数设计:本研究设计的奖励函数虽然在一定程度上指导了模型的生成,但可能仍然存在改进空间。未来研究可以探索更复杂的奖励函数设计,以更好地引导模型生成符合要求的回答。

未来研究方向

  1. 更大规模模型的应用:未来研究可以探索在更大规模模型上应用RL训练,以进一步提升模型的推理能力。
  1. 多模态RL训练:结合多模态数据进行RL训练,以进一步提升模型的多模态理解和推理能力。
  1. 自适应奖励函数:设计自适应奖励函数,根据模型的生成情况动态调整奖励策略,以更好地引导模型学习。
  1. 跨领域迁移学习:探索将在一个领域学到的推理能力迁移到其他领域的方法,以提升模型的泛化能力。
  1. 可解释性和透明度:提升模型的可解释性和透明度,使模型在生成回答时能够提供更清晰的推理路径和依据。

总之,本研究通过构建Magistral模型和可扩展的RL流程,展示了纯RL训练在提升LLMs推理能力方面的潜力。未来研究可以进一步探索更大规模模型的应用、多模态RL训练、自适应奖励函数设计、跨领域迁移学习以及模型的可解释性和透明度等方面的问题,以推动LLMs在复杂推理任务上的发展。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐