港大:小模型指导大模型训练
小型语言模型是否能够有效地教导大型语言模型进行系统推理?论文提出了LightReasoner框架,通过小型模型与大型模型之间的对比,显著提高了大型语言模型在推理任务上的表现并降低了训练资源的需求。

📖标题:LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
🌐来源:arXiv, 2510.07962
🌟摘要
大型语言模型 (LLM) 在推理方面取得了显着进展,通常是通过监督微调 (SFT)。然而,SFT 是资源密集型的,依赖于大型策划数据集、拒绝抽样演示和所有标记的均匀优化——尽管只有一小部分具有有意义的学习价值。在这项工作中,我们探索了一个违反直觉的想法:较小的语言模型 (SLM) 可以通过揭示反映后者独特强度的高值推理矩来教授更大的语言模型 (LLM)。我们提出了 LightReasoner,这是一个新颖的框架,它利用更强的专家模型 (LLM) 和较弱的业余模型 (SLM) 之间的行为差异。LightReasoner 分两个阶段运行:(1)一个采样阶段,它精确定位关键的推理时刻,并通过专家-动画对比构建捕获专家优势的监督示例,以及(2)一个微调阶段,将专家模型与这些蒸馏示例对齐,放大其推理优势。在七个数学基准测试中,LightReasoner 将准确率提高了 28.1%,同时将时间消耗减少了 90%,采样问题减少了 80%,并将令牌使用调整为 99%,所有这些都不依赖于真实标签。通过将较弱的slm转化为有效的教学信号,LightReasoner提供了一种可扩展且资源高效的方法来推进LLM推理。代码可在以下网址获得:https://github.com/HKUDS/LightReasoner。
🛎️文章简介
🔸研究问题:小型语言模型是否能够有效地教导大型语言模型进行系统推理?
🔸主要贡献:论文提出了LightReasoner框架,通过小型模型与大型模型之间的对比,显著提高了大型语言模型在推理任务上的表现并降低了训练资源的需求。
📝重点思路
🔸采用专家模型(Expert)与业余模型(Amateur)进行对比学习,利用它们在推理过程中的行为分歧来增强专家模型的推理能力。
🔸引入信息选择机制,利用KL散度来识别推理过程中关键的决策点,重点关注专家模型在这些点上的优势。
🔸通过对比性监督学习,将专家模型的优势转化为明确的训练信号,提高其推理能力。
🔸使用LoRA进行参数高效的训练,在确保通用知识的同时减少计算成本。
🔎分析总结
🔸实验表明,LightReasoner在五个模型和七个数学推理基准上均优于传统的监督微调(SFT),拥有可比或更高的性能。
🔸通过信息选择,LightReasoner能有效减少90%的计算时间和99%所需调整的tokens数量,相比SFT提升了训练效率。
🔸域专家的对比效果显著,表明模型的领域知识差异是对比学习有效性的主要驱动因素。
🔸消融研究确认了信息选择和对比性监督在LightReasoner中的关键角色,它们相辅相成,共同提升推理质量。
💡个人观点
论文的核心是通过屏蔽步骤来识别出推理关键点,再对比大小模型在关键点的差异来获取监督信号,以提升大模型的能力。
🧩附录


更多推荐
所有评论(0)