DeepSeek R1 论文惊人更新:22页变86页,纯强化学习铸就开源推理王者!

两天前,DeepSeek 团队悄然更新了 DeepSeek-R1 的技术报告,从最初的22页直接“膨胀”到86页。这不再是一篇普通论文,而是一份完全可复现的开源技术报告,细节爆炸,被社区誉为“教科书级”神作!网友直呼:这才是真正的开源精神!

论文地址https://arxiv.org/abs/2501.12948 PDF直链https://arxiv.org/pdf/2501.12948.pdf

deepseek-ai/DeepSeek-R1 · Hugging Face

更新核心新增内容(干货满满)

此次更新补充了海量细节,让开源社区能真正复现整个过程:

  • 精确数据配方:RL阶段明确给出数学26k、代码17k、STEM22k、逻辑15k、通用66k等数据规模及生成流程
  • 基础设施细节:vLLM + DualPipe 并行推理架构示意图
  • 训练成本透明:总计约29.4万美元(R1-Zero阶段198小时H800 GPU集群)
  • 失败尝试复盘:详细解释为何过程奖励模型(PRM)和MCTS未成功
  • 扩展模型对比:新增与DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o等全面对比
  • 10页安全报告:多语言评估、越狱攻击、风险控制体系全解析
  • 贡献者名单:论文末尾列出每位核心成员的具体贡献

DeepSeek App 最近还新增语音输入功能,网友猜测多模态布局已启动。

性能评测:多项基准媲美甚至超越OpenAI o1

最新报告覆盖数学、编码、长上下文、通用知识、指令遵循等全维度评测。DeepSeek-R1 在多数任务上与 o1-1217 持平或微超,显著领先 o1-mini、GPT-4o 和 Claude 3.5 Sonnet。

亮点表现

  • STEM相关基准(MMLU-Pro、GPQA Diamond)大幅超越DeepSeek-V3,主要归功于纯RL训练
  • 长上下文任务(FRAMES)文档理解能力突出
  • 编程实践任务:Aider上略逊o1,但在SWE Verified相当(DeepSeek表示工程数据不足,下一版将加强)

与人类专家对比(重磅数据):

  • AIME数学竞赛:DeepSeek-R1 已超人类平均水平
  • Codeforces编程竞赛:超越93.6%人类选手
  • GPQA科学问答:人类仍领先,但DeepSeek认为若联网可反超

Chatbot Arena人工评估: 通过ELO分数,R1 在人类偏好上表现亮眼,尤其“风格控制”维度与 o1、Gemini-Exp-1206 并列第一——证明其并非靠冗长华丽回答取胜,而是真·实力。

数据规模详解

  • RL阶段:总146k样本(数学26k、代码17k等)
  • SFT微调阶段:约800k样本,覆盖推理链、通用指令、格式一致性等

蒸馏:推理能力高效下放小模型

DeepSeek-R1作为“教师”生成高质量显式推理轨迹,通过SFT蒸馏给1.5B~70B学生模型。实验证明:推理能力可稳定跨规模迁移,同尺寸模型性能全面提升。

智能涌现:R1-Zero的“人类式”自我进化

在MATH数据集上,R1-Zero学习曲线惊人相似人类:

  • 简单问题(难度1-3)早期快速掌握(准确率0.90+)
  • 复杂问题(难度4-5)随训练逐步攻克(5级从0.55升至0.90)

模型逐渐学会反思行为,反思词汇(wait、mistake、however等)频率增加5-7倍,特定策略(如“wait”)在训练后期突现。

安全评估:开源模型的安全新标杆

新增10页安全报告,覆盖:

  1. 官方风险控制体系(关键词过滤 + DeepSeek-V3审查)
  2. 六项公开安全基准对比
  3. 内部1,120题安全数据集(4大类28子类)
  4. 50种语言9,330题多语言评估
  5. 越狱攻击稳健性测试

结论:

  • 启用控制后,多语言安全得分85.9%,接近Claude 3.7 Sonnet
  • 越狱攻击威胁所有模型,开源模型风险更高
  • 推理模型更依赖安全系统

Evaluating Security Risk in DeepSeek - Cisco Blogs

技术总结:纯RL成功的三大关键

  1. 大容量基础模型:小模型RL无效,必须从强基模型起步
  2. 可靠验证器:规则RM + 大模型一致性判断,防奖励作弊
  3. RL + SFT迭代流水线:缺一不可,避免次优行为与奖励漏洞

DeepSeek承认经历多次失败(PRM、MCTS等),但强调这些方法并非无效,只是需要正确组合。

社区热议与展望

网友调侃:“证据摆在这,是时候让某些人道歉了。” 以远低于闭源模型的成本,DeepSeek-R1实现媲美o1的推理能力,开源社区迎来里程碑胜利!大家纷纷期待R2将带来纯RL+更多工程数据的更大突破。

这份86页报告不仅是技术分享,更是对“推理能力可通过纯强化学习实现”的有力证明。强烈建议开发者下载细读,复现指日可待!

卧槽这波操作太硬核了!86页纯干货直接甩脸上,连失败案例都敢公开,这才是真开源啊!DeepSeek牛逼症发作起来连自己都卷,隔壁闭源大厂现在脸疼不疼?

哇塞!这波更新也太硬核了吧!连训练成本都公开了,简直是把家底都掏出来了喂~

啊这报告也太硬核了吧!86页干货直接塞爆,连训练成本都明牌了。DeepSeek这次真是把开源玩到极致,连失败案例都复盘得清清楚楚。

这份86页的技术报告真是震撼!细节爆炸,研究成本透明之前就脱颖而出的方案而且还改进可惜现在我有的处理器也只有512核移动要好d

这更新也太猛了!86页全是硬货,确实是教科书级别啊。社区复现起来应该容易不少了,开源的诚意满满。PDF 啥都写清楚,感觉闭源那一套要被撕烂了。DeepSeek-R1的实验细节、成本透明这些真的良到了极点,眼睁睁的看着自己被超级调试中变好用啊。快给我份牛石望log8prebe我真身utant克斯铁029

哇塞!这波更新太硬核了吧!连训练成本都公开了,29.4万刀明明白白写出来,这才是真开源啊!