2025 年初,DeepSeek-R1 模型震撼登场,迅速登顶 140 国应用商店榜首,引发全球关注,被外网盛赞来自东方“神秘的力量”!
1、DeepSeek简介
2025年初,DeepSeek(深度求索)公司相继推出了其第一代推理大模型:DeepSeek-R1-Zero 和 DeepSeek-R1。
DeepSeek-R1-Zero :是一个通过大规模强化学习(RL)训练的模型,训练过程中没有使用监督微调(SFT)作为初步步骤。该模型在推理任务上表现出色,通过强化学习,自然涌现出许多强大且有趣的推理行为。
然而,DeepSeek-R1-Zero 也面临一些挑战,例如无休止的重复、可读性差以及语言混杂等问题。为了解决这些问题并进一步提升推理性能,进一步推出了 DeepSeek-R1 ,该模型在强化学习之前引入了冷启动数据。
DeepSeek-R1 :在数学、代码和推理任务上的表现与 OpenAI-o1 相当。为了支持研究社区,开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 蒸馏出的六个密集模型。其中,DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini,为密集模型创造了新的最佳性能纪录。
2、核心思想
Post-Training:在基础模型上进行大规模强化学习
DeepSeek-R1-Zero 直接将强化学习(RL)应用于基础模型,而无需依赖监督微调(SFT)作为前期步骤。这种创新方法使模型能够自主探索思维链(CoT),高效解决各类复杂问题。
DeepSeek-R1-Zero 展现出自我验证、自我反思以及生成较长思维链等核心能力,这对AI研究界而言是一个重要的里程碑。
值得重点关注的是,这是首个通过公开研究证实,大语言模型(LLMs)的推理能力可纯粹通过强化学习实现、无需监督微调参与的案例。这一突破性成果,为大模型推理能力的研究与发展铺平了全新道路。
DeepSeek-R1模型是 DeepSeek-R1-Zero 的升级版,其核心升级点在于包含两个递进式的强化学习阶段,具体如下:
(1)面向推理的强化学习阶段
-
目的:聚焦提升模型在编码、数学、科学和逻辑推理等推理密集型任务上的核心性能。
-
过程:先利用冷启动数据微调 DeepSeek-V3-Base 模型,再采用与 DeepSeek-R1-Zero 一致的强化学习训练方案。针对训练中出现的思维链语言混合问题,引入语言一致性奖励(根据目标语言单词比例计算),最终将「推理任务准确性」与「语言一致性奖励」加权求和,形成模型训练的最终奖励,持续训练直至模型在推理任务上达到收敛状态。
(2)全场景强化学习阶段
-
目的:通过整合多源奖励信号和多样化数据分布,训练出可在各类场景下提供有用、无害且具备强大推理能力的模型,进一步贴合人类偏好,全方位提升模型的帮助性、无害性及推理能力。
-
过程:采用「组合奖励信号+多样提示分布」的训练模式。对于推理类数据,沿用 DeepSeek-R1-Zero 的方法论,依靠基于规则的奖励指导模型学习;对于通用类数据,则通过奖励模型捕捉人类偏好。基于 DeepSeek-V3 技术管道,采用类偏好对分布和训练提示;帮助性层面,重点关注最终摘要的实用性与相关性;无害性层面,全面评估模型整个响应过程,识别并缓解潜在风险,最终通过整合多源奖励信号和多样化数据分布,完成模型的全场景训练。
知识蒸馏:小模型也能拥有强大推理能力
DeepSeek 通过实验证实,较大模型的优质推理模式可有效蒸馏到较小模型中,相较于直接通过强化学习在小模型上训练得到的推理模式,这种蒸馏方式能带来更优的性能表现。开源的 DeepSeek-R1 及其应用程序编程接口(API),将为研究界未来蒸馏出更高效的小模型提供重要支撑。
研究团队利用 DeepSeek-R1 生成的高质量推理数据,对研究界广泛使用的多个稠密模型进行微调,评估结果显示,经过蒸馏的较小稠密模型,在各项基准测试中均表现极为出色,实现了“小参数量+高性能”的突破。
为助力社区发展,作者向全球AI社区开源了基于Qwen2.5 和 Llama3 系列蒸馏得到的模型文件,涵盖 15亿、70亿、80亿、140亿、320亿和700亿 六种参数规格,供研究者自由使用与优化。
3、强化学习 VS 监督微调
以下从多个核心维度,对强化学习(RL)与传统监督微调技术(SFT)进行详细对比,清晰呈现两种技术的差异与适用场景:
| 对比维度 | 强化学习(RL) | 监督微调(SFT) |
|---|---|---|
| 性能方面 | • 天花板更高:通过与环境交互学习,可探索出更具创造性和灵活性的策略,有望使模型在复杂任务上表现出超越人类的水平。• 训练不稳定:训练过程往往波动较大,收敛速度较慢,需大量样本和计算资源才能达到理想效果。 | • 数据决定表现:基于有标注数据训练,能让模型快速在特定任务上达到较高准确性,适合文本分类、情感分析等有明确标注数据的场景。• 依赖数据质量:若标注数据存在偏差或不完整,模型易过度拟合,导致实际应用中的泛化能力受限。 |
| 数据方面 | 更侧重于从环境反馈中学习,对大规模有标注数据的依赖较小,无需投入大量成本进行数据标注。 | 高度依赖高质量的标注数据,数据的质量和数量直接决定模型的最终性能,标注成本较高。 |
| 训练成本 | 训练成本高:需大量计算资源和时间,需不断与环境交互、更新策略;同时因训练不稳定,可能需多次调整超参数、重新训练。 | 训练成本较低:训练过程相对稳定,尤其在预训练模型基础上微调时,可大幅减少训练时间和资源消耗,效率更高。 |
4、模型下载
# DeepSeek-R1 模型(基础版+升级版)
| Model | #Total Params(总参数量) | #Activated Params(激活参数量) | Context Length(上下文长度) | Download(下载地址) |
|---|---|---|---|---|
| DeepSeek-R1-Zero | 671B | 37B | 128K | |
| DeepSeek-R1 | 671B | 37B | 128K |
DeepSeek-R1 蒸馏模型:基于 DeepSeek-R1 生成的高质量推理样本,在主流开源模型基础上微调得到,小参数量、高性能,适配更多轻量化场景。
| Model | Base Model(基础模型) | Download(下载地址) |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | |
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | |
| DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | |
| DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | |
| DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct |
5、本地运行
# DeepSeek-R1-Distill Models(蒸馏模型本地运行指南)
蒸馏模型适配轻量化本地部署,以下提供两种简单便捷的服务启动方式,可根据自身环境选择:
方式1:使用 vLLM 启动服务(推荐,高效便捷)
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
方式2:使用 SGLang 启动服务
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
6、实用建议
为充分发挥 DeepSeek-R1 系列模型的性能,规避常见问题,推荐进行以下配置(重点配置加粗标注):
-
温度参数设置:建议将温度参数控制在 0.5 - 0.7 范围内(最优推荐设置为 0.6),可有效防止模型输出出现无休止重复、内容前后不连贯的问题。
-
系统提示规范:不要添加系统提示,所有指令、需求均需包含在用户提示中,避免干扰模型推理逻辑。
-
逐步推理提示:针对数学、逻辑推理类问题,建议在提示中加入明确引导,例如:“请逐步推理,并将最终答案放在 \boxed {} 内。”,引导模型生成完整思维链。
-
评估方法优化:在评估模型性能时,建议进行多次测试并取结果的平均值,减少偶然因素对评估结果的影响,确保评估准确性。
-
强制思维模式:经测试发现,DeepSeek-R1 系列模型在部分查询中会跳过思维模式(不输出 “\n\n” 分隔),影响推理完整性。建议强制模型在每次输出的开头以 “\n” 起始,确保模型进行全面、完整的推理。
7、模型效果
# DeepSeek-R1模型评估(核心性能测试)
评估说明:所有模型的最大生成长度均设定为 32768 个词元;需采样的基准测试中,温度参数设为 0.6,核采样概率(top-p)设为 0.95,每个查询生成 64 个回复以估算单样本通过率(pass@1)。
| Category(类别) | Benchmark (Metric)(测试基准+指标) | Claude-3.5-Sonnet-1022 | GPT-4o 0513 | DeepSeek V3 | OpenAI o1-mini | OpenAI o1-1217 | DeepSeek R1 |
|---|---|---|---|---|---|---|---|
| Code(编码) | - | - | - | MoE | - | - | MoE |
| - | - | - | 37B | - | - | 37B | |
| - | - | - | 671B | - | - | 671B | |
| LiveCodeBench (Pass@1-COT) | 33.8 | 34.2 | - | 53.8 | 63.4 | 65.9 | |
| Code(编码) | Codeforces (Percentile) | 20.3 | 23.6 | 58.7 | 93.4 | 96.6 | 96.3 |
| Codeforces (Rating) | 717 | 759 | 1134 | 1820 | 2061 | 2029 | |
| SWE Verified (Resolved) | 50.8 | 38.8 | 42.0 | 41.6 | 48.9 | 49.2 | |
| Code(编码) | Aider-Polyglot (Acc.) | 45.3 | 16.0 | 49.6 | 32.9 | 61.7 | 53.3 |
| Math(数学) | AIME 2024 (Pass@1) | 16.0 | 9.3 | 39.2 | 63.6 | 79.2 | 79.8 |
| MATH-500 (Pass@1) | 78.3 | 74.6 | 90.2 | 90.0 | 96.4 | 97.3 | |
| CNMO 2024 (Pass@1) | 13.1 | 10.8 | 43.2 | 67.6 | - | 78.8 | |
| Chinese(中文) | CLUEWSC (EM) | 85.4 | 87.9 | 90.9 | 89.9 | - | 92.8 |
| C-Eval (EM) | 76.7 | 76.0 | 86.5 | 68.9 | - | 91.8 | |
| C-SimpleQA (Correct) | 55.4 | 58.7 | 68.0 | 40.3 | - | 63.7 |
DeepSeek-R1-Distill 评估(蒸馏模型性能测试)
| Model | AIME 2024 pass@1 | AIME 2024 cons@64 | MATH-500 pass@1 | GPQA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces rating |
|---|---|---|---|---|---|---|
| GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
| Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
| o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
| QwQ-32B-Preview | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
| DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
| DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
| DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
| DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
| DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
| DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633 |
