就在不久前,OpenAI 联合创始人 Ilya Sutskever 在播客访谈中抛出重磅观点:过去五年的“scaling 时代”正在走向尽头,预训练数据有限,单纯靠更多 GPU 堆叠更大模型——即便规模放大 100 倍——也难以带来质的飞跃。因此,行业将回归以研究为核心的时代,只不过这次我们拥有了前所未有的庞大算力。这一表态,被广泛解读为对 Scaling Laws “撞墙论”的有力佐证。
然而,时隔不久,DeepSeek 于 2025 年 12 月初发布了 V3.2 和 V3.2-Speciale 两大模型,用实际性能给出了截然不同的答案。
模型发布后,DeepSeek 研究员 Zhibin Gou 在 X 上罕见发声:
“如果 Gemini-3 证明了持续扩展预训练的可能性,DeepSeek-V3.2-Speciale 则证明了在大规模上下文环境中强化学习的可扩展性。我们花了一年时间将 DeepSeek-V3 推向极限,得出的经验是:训练后的瓶颈需通过优化方法和数据来解决,而非仅等待更好的基础模型。”
他还补充道:
“持续扩大模型规模、数据量、上下文和强化学习。别让那些‘遭遇瓶颈’的杂音阻挡你前进。”
这是 DeepSeek 团队少有的公开喊话。在行业热议 Scaling Laws 是否已到极限之际,DeepSeek 用实打实的模型和基准成绩回应:Scaling 并未终结,只是战场从单纯预训练转向了后训练、强化学习与架构优化。
尽管业界普遍认可后训练的重要性,但敢于将相当于预训练成本 10% 以上算力投入 RL 的玩家仍寥寥无几。DeepSeek 是少数真正将这条路线工程化、规模化的代表。此次发布的两个模型,正是这一路径的结晶:V3.2 定位日常主力,对标前沿闭源模型;Speciale 则专注极限推理,在多项国际竞赛中斩获金牌。
技术报告引言部分有一句发人深省:“过去几个月,开源社区虽在持续进步,但闭源模型的性能轨迹正以更陡峭的速度加速。差距不是在收窄,而是在扩大。”报告同时指出了开源模型的三大核心短板:过度依赖普通注意力机制导致长序列效率低下、后训练算力投入不足、Agent 场景泛化能力差。但 DeepSeek 的态度明确:这些问题都有解,V3.2 系列便是他们的答案。
V3.2:高效主力,将自我进化应用于通用效率
V3.2 是此前实验版 V3.2-Exp 的正式迭代,目标在于平衡推理能力与输出成本。
在推理基准上,V3.2 已达到前沿水平:在 AIME 2025 数学竞赛中得分 93.1%,HMMT 2025 二月赛 92.5%,LiveCodeBench 代码评测 83.3%。相比竞品,它在保持相近性能的同时,输出 Token 量大幅降低——得益于严格的 Token 约束和长度惩罚,使其更省、更快、更具性价比。
V3.2-Exp 上线数月后,DeepSeek 通过多维度验证了 DeepSeek Sparse Attention (DSA) 的有效性:标准基准与前代持平,Chatbot Arena Elo 评分相当,长上下文第三方评测甚至高出数分。这证明了稀疏注意力能在不牺牲性能的前提下显著提升效率。
V3.2 的另一重大突破,是 DeepSeek 首个将“思考模式”与“工具调用”深度融合的模型。此前推理模型(包括 OpenAI 的 o 系列)在思考模式下无法调用工具,V3.2 打破了这一限制,支持思考与非思考模式下的工具调用。
技术报告中,后训练部分篇幅最重的是 Agent 能力训练方法。DeepSeek 构建了一套大规模 Agent 任务合成流水线,覆盖 1800+ 环境和 85000+ 复杂指令。
流水线的核心哲学是“难解答,易验证”。以旅行规划任务为例:复杂约束组合使搜索空间巨大,但验证方案是否满足约束却相对简单。这种特性天然适合强化学习——模型通过海量尝试获得明确反馈,无需人工标注。
验证结果极具说服力:仅用合成数据进行 RL 的模型,在 Tau2Bench、MCP-Mark 等 Agent 基准上显著提升;而仅在真实环境 RL 的模型,几乎无变化。官方强调,V3.2 未针对这些测试集工具进行专项优化,却仍达开源最高水平,证明其泛化能力真实可靠。
V3.2-Speciale:极限推理,将自我验证应用于高阶逻辑
Speciale 是 V3.2 的“长思考增强版”。如果 V3.2 通过 Token 约束优化效率,Speciale 则放宽限制,鼓励模型进行更深度推理。
报告 Table 3 显示:在相同任务上,Speciale 输出 Token 量远超竞品。例如 AIME 2025 上,Speciale 输出 23k Token,是 Gemini 3.0 Pro 的 1.5 倍;在 Codeforces 上更达 77k Token,是 Gemini 的 3.5 倍。
尽管 Token 消耗巨大,得益于 DSA 效率提升与 DeepSeek 的激进定价策略,Speciale 的总体成本仍大幅领先:比 GPT-5 便宜约 25 倍,比 Gemini 3.0 Pro 便宜约 30 倍,比 Claude Opus 便宜约 62 倍。
Speciale 的意义不止于“让模型想更久”,更在于验证了一个关键假设:对推理“过程”的监督,能否从数学证明泛化到更广领域?
此前 DeepSeekMath-V2 提出的“生成器-验证器”双模型架构,已在数学领域大放异彩。此次 Speciale 将其数据集与奖励机制迁移至代码生成和通用逻辑任务,实现过程监督的泛化。结果令人振奋:Speciale 在多项竞赛中斩获金牌,包括 2025 IMO、CMO、ICPC World Finals 和 IOI。
这意味着“自我验证”不再是数学特例,而是一种可规模化的能力提升范式。
不缺算力的 DeepSeek,将带来何种变革?
DeepSeek 技术报告的“结论、局限性与未来工作”部分,向来是亮点。此次也不例外:“由于总训练 FLOPs 较少,DeepSeek-V3.2 的世界知识广度仍落后于领先闭源模型。我们计划在后续版本中,通过扩大预训练算力来弥补这一知识差距。”
报告坦承,由于预训练算力相对较少,V3.2 在世界知识广度上落后于 Gemini 3.0 Pro 或 GPT-5。但 DeepSeek 的策略并非被动等待更大基座,而是先将方法论打磨极致:用一年时间,通过合成数据、自我验证和大尺度 RL,充分挖掘后训练上限。
此次发布,正是这一策略的成果体现:
- V3.2 将“自我进化工程”(高 RL 预算 + 合成数据闭环)应用于通用效率;
- Speciale 将过程奖励与自我验证推向高阶逻辑推理。
两者共同指向未来:模型不再依赖人工堆砌数据,而是通过自我博弈实现持续演进。
下一步,自然是补齐预训练算力,填补知识差距。这引发联想:若 DeepSeek 真正补上算力,会释放何种潜力?这些资源又从何而来?
在英伟达对中国市场限制加剧的背景下,传统 H800 已难以为继。下一代模型所需的更大算力资源,将如何获取?若这一缺口得以填补,DeepSeek 的完全体——或许是 V4 或 R2——将呈现何种面貌?
一个大胆却合理的预期是:我们看到的将不再是传统“更强语言模型”,而是一个能感知多模态环境、具备长期记忆,并在真实交互中持续进化的智能系统。合成环境中的自我博弈,正向真实世界在线学习延伸。
Scaling Laws 的故事,远未结束。DeepSeek 用行动证明:它只是换了战场,从预训练的粗放扩张,转向后训练的精耕细作与自我进化。



