玩转deepseek:新人零基础入门指南!

2025 年初,DeepSeek-R1 模型震撼登场,迅速登顶 140 国应用商店榜首,引发全球关注,被外网盛赞来自东方“神秘的力量”!

1、DeepSeek简介

2025年初,DeepSeek(深度求索)公司相继推出了其第一代推理大模型:DeepSeek-R1-Zero 和 DeepSeek-R1。

DeepSeek-R1-Zero :是一个通过大规模强化学习(RL)训练的模型,训练过程中没有使用监督微调(SFT)作为初步步骤。该模型在推理任务上表现出色,通过强化学习,自然涌现出许多强大且有趣的推理行为。

然而,DeepSeek-R1-Zero 也面临一些挑战,例如无休止的重复、可读性差以及语言混杂等问题。为了解决这些问题并进一步提升推理性能,进一步推出了 DeepSeek-R1 ,该模型在强化学习之前引入了冷启动数据。

DeepSeek-R1 :在数学、代码和推理任务上的表现与 OpenAI-o1 相当。为了支持研究社区,开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 蒸馏出的六个密集模型。其中,DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini,为密集模型创造了新的最佳性能纪录。

2、核心思想

Post-Training:在基础模型上进行大规模强化学习

DeepSeek-R1-Zero 直接将强化学习(RL)应用于基础模型,而无需依赖监督微调(SFT)作为前期步骤。这种创新方法使模型能够自主探索思维链(CoT),高效解决各类复杂问题。

DeepSeek-R1-Zero 展现出自我验证、自我反思以及生成较长思维链等核心能力,这对AI研究界而言是一个重要的里程碑。

值得重点关注的是,这是首个通过公开研究证实,大语言模型(LLMs)的推理能力可纯粹通过强化学习实现、无需监督微调参与的案例。这一突破性成果,为大模型推理能力的研究与发展铺平了全新道路。

DeepSeek-R1模型是 DeepSeek-R1-Zero 的升级版,其核心升级点在于包含两个递进式的强化学习阶段,具体如下:

(1)面向推理的强化学习阶段

  • 目的:聚焦提升模型在编码、数学、科学和逻辑推理等推理密集型任务上的核心性能。

  • 过程:先利用冷启动数据微调 DeepSeek-V3-Base 模型,再采用与 DeepSeek-R1-Zero 一致的强化学习训练方案。针对训练中出现的思维链语言混合问题,引入语言一致性奖励(根据目标语言单词比例计算),最终将「推理任务准确性」与「语言一致性奖励」加权求和,形成模型训练的最终奖励,持续训练直至模型在推理任务上达到收敛状态。

(2)全场景强化学习阶段

  • 目的:通过整合多源奖励信号和多样化数据分布,训练出可在各类场景下提供有用、无害且具备强大推理能力的模型,进一步贴合人类偏好,全方位提升模型的帮助性、无害性及推理能力。

  • 过程:采用「组合奖励信号+多样提示分布」的训练模式。对于推理类数据,沿用 DeepSeek-R1-Zero 的方法论,依靠基于规则的奖励指导模型学习;对于通用类数据,则通过奖励模型捕捉人类偏好。基于 DeepSeek-V3 技术管道,采用类偏好对分布和训练提示;帮助性层面,重点关注最终摘要的实用性与相关性;无害性层面,全面评估模型整个响应过程,识别并缓解潜在风险,最终通过整合多源奖励信号和多样化数据分布,完成模型的全场景训练。

知识蒸馏:小模型也能拥有强大推理能力

DeepSeek 通过实验证实,较大模型的优质推理模式可有效蒸馏到较小模型中,相较于直接通过强化学习在小模型上训练得到的推理模式,这种蒸馏方式能带来更优的性能表现。开源的 DeepSeek-R1 及其应用程序编程接口(API),将为研究界未来蒸馏出更高效的小模型提供重要支撑。

研究团队利用 DeepSeek-R1 生成的高质量推理数据,对研究界广泛使用的多个稠密模型进行微调,评估结果显示,经过蒸馏的较小稠密模型,在各项基准测试中均表现极为出色,实现了“小参数量+高性能”的突破。

为助力社区发展,作者向全球AI社区开源了基于Qwen2.5Llama3 系列蒸馏得到的模型文件,涵盖 15亿、70亿、80亿、140亿、320亿和700亿 六种参数规格,供研究者自由使用与优化。

3、强化学习 VS 监督微调

以下从多个核心维度,对强化学习(RL)与传统监督微调技术(SFT)进行详细对比,清晰呈现两种技术的差异与适用场景:

对比维度 强化学习(RL) 监督微调(SFT)
性能方面 • 天花板更高:通过与环境交互学习,可探索出更具创造性和灵活性的策略,有望使模型在复杂任务上表现出超越人类的水平。• 训练不稳定:训练过程往往波动较大,收敛速度较慢,需大量样本和计算资源才能达到理想效果。 • 数据决定表现:基于有标注数据训练,能让模型快速在特定任务上达到较高准确性,适合文本分类、情感分析等有明确标注数据的场景。• 依赖数据质量:若标注数据存在偏差或不完整,模型易过度拟合,导致实际应用中的泛化能力受限。
数据方面 更侧重于从环境反馈中学习,对大规模有标注数据的依赖较小,无需投入大量成本进行数据标注。 高度依赖高质量的标注数据,数据的质量和数量直接决定模型的最终性能,标注成本较高。
训练成本 训练成本高:需大量计算资源和时间,需不断与环境交互、更新策略;同时因训练不稳定,可能需多次调整超参数、重新训练。 训练成本较低:训练过程相对稳定,尤其在预训练模型基础上微调时,可大幅减少训练时间和资源消耗,效率更高。

4、模型下载

# DeepSeek-R1 模型(基础版+升级版)

Model #Total Params(总参数量) #Activated Params(激活参数量) Context Length(上下文长度) Download(下载地址)
DeepSeek-R1-Zero 671B 37B 128K :hugs: HuggingFace
DeepSeek-R1 671B 37B 128K :hugs: HuggingFace

DeepSeek-R1 蒸馏模型:基于 DeepSeek-R1 生成的高质量推理样本,在主流开源模型基础上微调得到,小参数量、高性能,适配更多轻量化场景。

Model Base Model(基础模型) Download(下载地址)
DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Math-1.5B :hugs: HuggingFace
DeepSeek-R1-Distill-Qwen-7B Qwen2.5-Math-7B :hugs: HuggingFace
DeepSeek-R1-Distill-Llama-8B Llama-3.1-8B :hugs: HuggingFace
DeepSeek-R1-Distill-Qwen-14B Qwen2.5-14B :hugs: HuggingFace
DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B :hugs: HuggingFace
DeepSeek-R1-Distill-Llama-70B Llama-3.3-70B-Instruct :hugs: HuggingFace

5、本地运行

# DeepSeek-R1-Distill Models(蒸馏模型本地运行指南)

蒸馏模型适配轻量化本地部署,以下提供两种简单便捷的服务启动方式,可根据自身环境选择:

方式1:使用 vLLM 启动服务(推荐,高效便捷)

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

方式2:使用 SGLang 启动服务

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

6、实用建议

为充分发挥 DeepSeek-R1 系列模型的性能,规避常见问题,推荐进行以下配置(重点配置加粗标注):

  1. 温度参数设置:建议将温度参数控制在 0.5 - 0.7 范围内(最优推荐设置为 0.6),可有效防止模型输出出现无休止重复、内容前后不连贯的问题。

  2. 系统提示规范不要添加系统提示,所有指令、需求均需包含在用户提示中,避免干扰模型推理逻辑。

  3. 逐步推理提示:针对数学、逻辑推理类问题,建议在提示中加入明确引导,例如:“请逐步推理,并将最终答案放在 \boxed {} 内。”,引导模型生成完整思维链。

  4. 评估方法优化:在评估模型性能时,建议进行多次测试并取结果的平均值,减少偶然因素对评估结果的影响,确保评估准确性。

  5. 强制思维模式:经测试发现,DeepSeek-R1 系列模型在部分查询中会跳过思维模式(不输出 “\n\n” 分隔),影响推理完整性。建议强制模型在每次输出的开头以 “\n” 起始,确保模型进行全面、完整的推理。

7、模型效果

# DeepSeek-R1模型评估(核心性能测试)

评估说明:所有模型的最大生成长度均设定为 32768 个词元;需采样的基准测试中,温度参数设为 0.6,核采样概率(top-p)设为 0.95,每个查询生成 64 个回复以估算单样本通过率(pass@1)。

Category(类别) Benchmark (Metric)(测试基准+指标) Claude-3.5-Sonnet-1022 GPT-4o 0513 DeepSeek V3 OpenAI o1-mini OpenAI o1-1217 DeepSeek R1
Code(编码) - - - MoE - - MoE
- - - 37B - - 37B
- - - 671B - - 671B
LiveCodeBench (Pass@1-COT) 33.8 34.2 - 53.8 63.4 65.9
Code(编码) Codeforces (Percentile) 20.3 23.6 58.7 93.4 96.6 96.3
Codeforces (Rating) 717 759 1134 1820 2061 2029
SWE Verified (Resolved) 50.8 38.8 42.0 41.6 48.9 49.2
Code(编码) Aider-Polyglot (Acc.) 45.3 16.0 49.6 32.9 61.7 53.3
Math(数学) AIME 2024 (Pass@1) 16.0 9.3 39.2 63.6 79.2 79.8
MATH-500 (Pass@1) 78.3 74.6 90.2 90.0 96.4 97.3
CNMO 2024 (Pass@1) 13.1 10.8 43.2 67.6 - 78.8
Chinese(中文) CLUEWSC (EM) 85.4 87.9 90.9 89.9 - 92.8
C-Eval (EM) 76.7 76.0 86.5 68.9 - 91.8
C-SimpleQA (Correct) 55.4 58.7 68.0 40.3 - 63.7

DeepSeek-R1-Distill 评估(蒸馏模型性能测试)

Model AIME 2024 pass@1 AIME 2024 cons@64 MATH-500 pass@1 GPQA Diamond pass@1 LiveCodeBench pass@1 CodeForces rating
GPT-4o-0513 9.3 13.4 74.6 49.9 32.9 759
Claude-3.5-Sonnet-1022 16.0 26.7 78.3 65.0 38.9 717
o1-mini 63.6 80.0 90.0 60.0 53.8 1820
QwQ-32B-Preview 44.0 60.0 90.6 54.5 41.9 1316
DeepSeek-R1-Distill-Qwen-1.5B 28.9 52.7 83.9 33.8 16.9 954
DeepSeek-R1-Distill-Qwen-7B 55.5 83.3 92.8 49.1 37.6 1189
DeepSeek-R1-Distill-Qwen-14B 69.7 80.0 93.9 59.1 53.1 1481
DeepSeek-R1-Distill-Qwen-32B 72.6 83.3 94.3 62.1 57.2 1691
DeepSeek-R1-Distill-Llama-8B 50.4 80.0 89.1 49.0 39.6 1205
DeepSeek-R1-Distill-Llama-70B 70.0 86.7 94.5 65.2 57.5 1633

RL直接上不用SFT这思路够硬核

这个模型确实厉害

这波确实有点东西

R1这推理能力太强了

这模型确实挺厉害

R1这推理能力确实猛啊