看Deepseek论文，老彭总结了8 招降低大模型训练参数量的方法！【下载】

大数据架构师Evan

748人浏览 · 2025-10-12 20:07:31

大数据架构师Evan · 2025-10-12 20:07:31 发布

编辑：老彭

来源：大数据架构师

彭友们好，我是老彭。最近 AI 圈被 DeepSeek 团队一篇新论文狠狠 “炸” 了一波。他们用远低于行业常规的训练成本，竟然达成了与 OpenAI 相当的效果！简直太秀了！

作为数据和AI领域的牛马，老彭早几年就觉得大模型这参数量有点离谱，动辄百亿、千亿、万亿，训练一次烧掉的钱比老彭一辈子挣得都多。

此前说Deepseek能降低训练成本，摆脱依赖算力，只是一直没有公布细节。这篇论文算是给老彭解惑了。

今天正好有空，跟大家好好聊聊，大家都是怎么降低大模型训练参数量的，Deepseek又是怎么做的。

先放一张 DeepSeek 论文里的核心实验对比图镇楼，看看这效果，是不是一目了然？

这里八卦一下：这篇论文的作者就写了一页纸...下次那位大佬能把我的名字也加进去？必须请吃饭

老彭把deepseek的论文（中英文版）放在文末了，有需要可以自行下载。

降低训练参数量的思想

咱先抛开那些绕口的专业词，用最朴素的思想思考一下：做模型训练的时候，一般都是对所有参数都得更新一遍。就像家里装修，不管墙好不好，都得把整面墙的砖全换了，又费钱又费劲儿。

现在的参数量以B（十亿）为单位，很多人都把几十个B的模型踢出大模型的圈子了。但如果长此以往，成本根本没办法控制。于是必须要降低训练成本，最直接的方式也就是降低参数量。

很多人以为 “降参” 就是单纯减少参数的数量，其实不然。彭友们都知道，参数量越多，模型越聪明。而降低成本是降低参与训练的参数量，而不是降低总参数量。

总的来说，可以从训练效率、参数利用率、数据质量等维度入手进行优化。也就是会所让每一个参数都能发挥最大价值。

这才是降本增效的核心思想。

Deepseek的做法

deepseek是怎么做的呢？三招：

1. GRPO 算法：砍掉 PPO 的冗余计算，参数更新效率提 3 倍

传统大模型用 PPO 算法训练时，得同时维护 “策略模型” 和 “价值模型” 两个大模型，还得用 GAE（广义优势估计）计算奖励，相当于 “雇两个人干一件事”，参数和算力都浪费。

而论文里提出的GRPO（Group Relative Policy Optimization）算法，直接把这套流程瘦身了：它不用单独的价值模型，而是把每次训练的输出分成一组（比如 16 个输出），通过组内奖励的相对差异计算 “优势值”。就像老师改作业，不用给每个学生单独写评语，而是通过对比同一组学生的答案，快速找出谁的思路更优。

这么一改，效果立竿见影：

省去了价值模型的大量参数，训练时的参数量直接减少 20%；

计算速度比 PPO 快 3 倍，原来需要 1000 步训练的任务，现在 300 多步就能完成；

论文里提到，用 GRPO 训练 DeepSeek-R1-Zero 时，仅用 DeepSeek-V3 Base 的基础参数（未额外扩充），就实现了 AIME 正确率从 15.6% 到 77.9% 的飞跃。

这就像把大排量发动机换成涡轮增压小排量，油耗降了，动力反而更强。

2. 多阶段训练：不做全能模型，参数按任务动态分配

论文里 DeepSeek-R1 的训练分了 4 个阶段（R1-Zero→Dev1→Dev2→Dev3→最终版），每个阶段只针对特定目标优化，避免参数 “雨露均沾” 导致的浪费：

R1-Zero 阶段：只练推理能力，不用管格式、语言一致性，参数全集中在数学、编程的逻辑计算上；

Dev1 阶段：加少量冷启动数据，只微调负责指令跟随的参数，其他参数冻结；

Dev2 阶段：重点优化代码生成、STEM 任务的参数，不碰无关的文本生成参数；

最终阶段：仅用 400 步 RL 训练调整安全性、 helpfulness相关参数，避免过度训练导致参数冗余。

这种分阶段聚焦的思路，让参数不用兼顾所有任务。论文数据显示，最终版 DeepSeek-R1 的有效参数量（实际参与训练更新的参数），比同规模全量训练模型少了 45%，但在 MMLU、Codeforces 等 benchmark 上的表现反而更高。

就像学生备考，先集中精力攻数学，再补英语，不用同时复习所有科目，效率自然高。

3. 规则化奖励 + 精选数据：减少参数纠错成本

大模型训练时，低质量数据会让模型学错东西，最后得用大量参数纠错。这是很多人忽略的隐性参耗。而 DeepSeek 在论文里用了两招解决这个问题：

（1）规则化奖励：不用复杂模型打分，靠简单规则给反馈

对数学、编程这类有明确答案的任务，DeepSeek 没像传统方法那样用奖励模型（又要额外参数），而是直接用规则判断：

数学题看最终答案是否在指定格式（比如 boxed 里），对就是对，错就是错；

代码题用编译器跑测试用例，能通过就给高分，不用人工标注中间步骤。

这种方式不仅省去了训练奖励模型的参数量，还避免了奖励模型带来的偏见。论文里提到，用规则化奖励训练的模型，比用神经奖励模型的模型，参数利用率提升了 30%，训练时间缩短 25%。

（2）小而精的数据：100 万条精选数据＞1000 万条泛数据

论文里 DeepSeek 用的训练数据量，比行业常规少很多：

推理任务只用了几万条数学、编程题，且都是带明确答案的高质量题；

冷启动数据仅几千条，却都是人类对齐的对话式推理样本；

非推理任务（如写作）的数据，也经过筛选，避免重复、低质内容。

对比实验显示：用这些精选数据训练的模型，比用 10 倍量泛数据训练的模型，在相同参数量下，推理准确率高 12%。这就像给模型吃精粮，不用吃太多，营养就够，自然不用靠大量参数消化粗粮。

降低训练参数量8法

DeepSeek 的方法给了我们很好的思路，但不是所有团队都能做这么复杂的算法优化。

下面老彭提炼了 8 招通用的降参技巧，不管是中小团队还是个人研究者，都能上手用。

第1招：算法层面：选轻量化优化器，减少参数更新浪费

除了论文里的 GRPO，还有这些现成的轻量化算法：

LoRA/QLoRA：给模型加小插件，只更新 0.1%-1% 的参数；

原理如下图，就是冻结原有的矩阵，然后用两个小矩阵A和B相乘，得到一个和原有矩阵一样大的矩阵。我只需要训练这两个小矩阵就可以了。这个训练量可以相差好几个量级！

图片源于《一本书读懂大模型原理》又名《百页大模型原理》

假设原始权重矩阵的维度为 1024 ×1024，那么直接对它进行微调时将更新超百万个参数（1048576个参数）。使用低秩适应法时，新增维度为 1024× 8 的矩阵 A （8192个参数）及维度为 8 ×1024 ×的矩阵 B （8192 个参数）。此时仅需训练 8192+8192=16384个参数。