1 min read

技术解读

DeepSeek-V4 的后训练揭秘:让一个模型同时成为数学家、程序员和Agent

你有没有想过这个问题——

一个 AI 模型,如果要同时擅长数学、编程、写作和工具使用,这些能力会不会互相干扰?让模型同时学这么多,是会更全面,还是每样都学成半吊子?

传统的做法是"大锅炖":把各种数据混在一起,让模型同时学。但 DeepSeek-V4 没有这么做。它采用了两阶段范式:先让模型各自独立成长,再通过一种叫"逆向 KL 蒸馏"的技术把它们的能力合为一体。

这个设计逻辑非常有意思,也很值得深挖。


为什么"大锅炖"不够好?

在解释新方法之前,先说说传统后训练的局限。

如果把数学题、代码片段、Agent 任务、写作样本全部混在一起训练,模型会面临一个问题:不同任务需要的能力模型差异很大

  • 数学需要严密推理、长链思考
  • 编程需要精确性,一个分号错全盘皆输
  • Agent 任务需要调用工具、判断何时行动
  • 写作需要流畅性和风格一致性

这些能力放在一起训练,模型会自然地产生"能力打架"——某些能力被压制,某些能力被强化,但整体趋于平庸。


第一阶段:专家独立训练——"术业有专攻"

DeepSeek-V4 的第一阶段思路很直接:与其让一个模型同时学所有,不如让多个模型先分别学,学好了再合并。

具体来说,团队为四个目标领域各训练了一个专家模型:

  1. 数学专家(Mathematics)
  2. 编程专家(Coding)
  3. Agent 专家(Agent)
  4. 指令跟随专家(Instruction Following)

每个专家模型的训练分两步:

第一步:Supervised Fine-Tuning(SFT)

用高质量的领域数据做监督微调。这一步让模型先建立基础能力——数学模型学会做数学题,编程模型学会写代码。

第二步:Reinforcement Learning(RL)

在 SFT 基础上,用 GRPO(Group Relative Policy Optimization)做强化学习。GRPO 是 DeepSeek 自研的算法,核心思路是让模型在同一个问题上的多个输出中学习——好答案被奖励,差答案被惩罚。

每个领域的奖励信号也不同:

  • 数学专家:用严格的正确性评判(答案对不对)
  • 编程专家:用执行结果评判(代码能不能跑通)
  • Agent 专家:用任务完成度评判(工具调用有没有达到目的)

这个过程就像分别培养不同专长的运动员:数学家练习解题,程序员练习写代码,Agent 专家练习使用工具。


第二阶段:On-Policy Distillation(OPD)——"集大成者"

各自训练好了,怎么合并成一个模型?

直接取平均值?那会得到一个"每样都会一点,每样都不精"的模型。

DeepSeek-V4 的做法是 On-Policy Distillation( OPD),一种蒸馏技术,但比普通蒸馏更精细。

OPD 的核心逻辑

传统的蒸馏是:用一个已经训练好的大模型(teacher)来指导一个小模型(student)学习。Teacher 输出什么,Student 就学什么。

OPD 不同。它用的是逆向 KL 散度(Reverse KL Divergence)作为损失函数。

这有什么讲究?

KL 散度衡量两个概率分布的差异。普通蒸馏用的是正向 KL——Student 要去匹配 Teacher 的整个概率分布,包括 Teacher 对错误答案的"模糊认知"。

逆向 KL 则不同:它只要求 Student 在 Teacher 置信的地方保持一致,而在 Teacher 不确定的地方,Student 可以自由发挥。

用大白话来说:老师如果对某个问题也不确定(概率分散),学生不必学老师的犹豫——学生可以自己形成坚定的判断。

这在专家合并的场景下意义重大。数学专家在数学问题上很坚定,但在编程问题上可能"自信度"没那么高。编程专家则相反。逆向 KL 让合并后的模型在每个领域都能保持专家级的坚定,而不是被其他领域的模糊预测拖后腿。

全词汇表 OPD

还有一个技术细节值得注意:DeepSeek-V4 做了全词汇表 OPD(Full-Vocabulary OPD)。

一般的蒸馏只蒸馏最终答案的概率分布。但 DeepSeek-V4 做了更彻底的蒸馏——它让 Student 模型学习 Teacher 模型在整个词汇表上的输出分布,而不只是正确答案的概率。

这意味着学生不只学到"正确答案是什么",还学到"为什么其他答案不对"。这个信息量要大得多,也是最终模型能保持专家级表现的关键原因之一。


实际效果:合并后的模型有多强?

DeepSeek-V4-Pro-Max 是合并后的最终模型。论文展示了它的表现:

数学推理:在 Putnam-2025 数学竞赛题上达到 120/120(满分),超越之前所有模型

编程能力:在 Codeforces 编程竞赛中排名达到人类选手前 23 位,和 GPT-5.4 持平——这是开源模型首次在编程竞赛上追平闭源前沿模型

Agent 任务:在 MCPAtlas(大量真实 MCP 工具调用测试)和 Toolathlon 测试集上表现优异,展示了出色的跨工具泛化能力,不是只能在内部框架上表现好

中文写作:对比 Gemini-3.1-Pro,整体胜率 62.7%,在创意写作质量上胜率高达 77.5%

这些结果说明,合并后的模型并没有出现"能力稀释"——每项能力都维持在专家水准以上。


为什么这个框架值得关注?

DeepSeek-V4 的两阶段后训练框架,背后的思想可以延伸到 AI 开发的很多场景:

对于 AI 系统设计:当一个系统需要同时具备多种专业能力时,分别训练再合并,可能是比"大锅炖"更好的选择。特别是在线服务和产品,往往需要模型同时处理多种不同类型的请求。

对于能力融合:逆向 KL 散度的使用提供了一个有价值的思路——不是让模型学"平均值",而是保留每个领域专家的坚定判断。

对于训练效率:专家分别训练意味着可以根据每个领域的特点单独调整训练策略(数据配比、RL 超参数等),比统一的训练策略更灵活。


小结

DeepSeek-V4 的后训练框架,是一个"分而治之,再合而为一"的设计:

  • 第一阶段:数学、编程、Agent、指令跟随分别独立训练,用 GRPO 强化各自的专业判断
  • 第二阶段:通过逆向 KL 散度蒸馏,把四种专家能力合到一个模型里,全词汇表 OPD 保证每项能力不稀释

最终得到的模型,在每个维度都接近或达到了前沿水准。这个训练范式本身,可能比具体的技术细节更具启发意义——它回答了"如何让一个模型真正成为多专家"的问题,而不只是"堆砌能力"的表面融合。


论文来源:DeepSeek-V4,HuggingFace 可下载权重