兄弟们,2026年春节档还没到,全网已经嗨翻了!大家普遍期待DeepSeek再一次震惊世界——这个团队太有仪式感了,大版本迭代总爱挑中国传统节日放炸弹。想想R1当年发布,直接让全球AI圈集体“哇塞”:开源国产模型首次赶超ChatGPT部分领域,还把推理成本干到骨折,在芯片封锁下硬生生撕开一道算力口子。
新增内容超硬核:完整训练流程、成本细节、GRPO算法、评测体系全曝光!
一、训练流程大起底:四个阶段,模型自己进化
旧版三步走简单粗暴,新版细分成四个阶段,还有Dev1/2/3检查点,每个阶段目标明确。
- 冷启动SFT(Dev1):用CoT数据监督微调,解决直接RL的中英混杂、格式崩坏。但指令遵循涨了,推理短期下滑。
- 推理导向RL(Dev2):专注数学/代码等可验证任务,用GRPO拉回推理能力,指令遵循稳住。
- 拒绝采样+SFT(Dev3):RL快收敛时,生成数据拒绝采样,再二次SFT。
- 对齐导向RL(最终R1):全场景RL,通用指令下推理再飞一波。
成本震惊:R1-Zero 198小时,R1 80小时,总278小时(不到12天),硬件就64×8=512张H800!这性价比,直接把推理门槛拉到地板。
二、GRPO黑科技:群体相对排序,模型自己“顿悟”
传统PPO痛点:要同规模Critic价值模型,内存翻倍;长链推理奖励不稳;GAE误差累积。
GRPO神操作:不打绝对分,让一批答案互相比较排序,给相对排名反馈(“你超了80%同学”or“垫底10%”)。省资源,还稳定!
最震撼是aha moment:训练中模型突然狂用"wait"自我反思,这行为自发涌现,推理能力质变!
三、评测体系拉满:20+基准,全维度硬刚
新增MMLU-Pro、GPQA Diamond、Arena-Hard、SWE-bench、LiveCodeBench等,覆盖知识、推理、代码、安全。
- 知识:多学科广覆盖
- 推理:逻辑、因果、反事实全有
- 代码:不止算法,还测真实GitHub bug修复
- 安全:6大基准,平均95分,偏见/暴力/隐私全稳,和GPT-4o、Claude 3.7 Sonnet肩并肩
兄弟们,这论文不光技术牛,开放态度也牛!纯RL让模型自己长脑子,成本还这么低,DeepSeek这波直接改写规则。
春节V4要来了,大家准备好被震撼吧!评论区聊聊你对V4的最大期待~









