之前尝试了许多AI,包括但不限于Kimi、豆包等。昨晚抱着试一试的态度,体验了一下这两天风很大的DeepSeek,没想到真的让我眼前一亮!相较于其他AI直接给出答案,DeepSeek能显示它的完整逻辑推理,真的很“人”化!
为了让更多朋友能够快速了解上手,因此,
让DeepSeek帮我整合了它的使用指南,正好大家也能感受。
第一部分 快速上手:懂能力 + 会提问,新手秒会用
一、先懂原理:DeepSeek 的两大核心超能力
1. 深度思考(R1)—— AI 的超级大脑
核心特性:
基于海量知识库进行推理分析
擅长逻辑 / 创意类复杂问题解答
推理响应速度极快
经典适用场景:数学解题、写作辅助、专业知识解释、技能教学
举例:问:用比喻手法解释区块链技术?答:区块链就像一本全员记账的公共账本,每笔交易都会被盖上时间戳并串成链条,谁也无法偷偷修改。
2. 联网搜索 —— AI 的实时搜索引擎
核心特性:
实时抓取最新网络信息
精准覆盖知识盲区与时效型内容
支持多语言结果整合
经典适用场景:实时信息查询、数据获取、事实核验、冷知识解答
举例:问:对比今日京东和抖音的 iPhone14 低价?答:正在检索… 京东自营 128G 版 4899 元,抖音商城 4799 元(需领取满减券)。
二、正确提问:新手快速搞定 DeepSeek 的核心方法
1. 核心基本原则
像给 AI “写任务清单” 一样提问:提问越具体,AI 的回答越精准,避免模糊化表达。
三大避坑误区
忌抽象表达:将 “要高级感” → 改为 “类似 CELINE 品牌视觉手册的极简风格”
忌多重否定:将 “不要复杂不要太幼稚” → 改为 “适合职场新人的轻熟简约风”
忌开放提问:将 “你怎么看?” → 改为 “请从市场营销角度分析三个可行方案”
2. 万能提问模板(直接套用)
模板 1:身份设定 + 任务描述 + 输出要求 + 风格示例
错误示范:写一篇美妆文案
正确示范:你是有 5 年经验的国货彩妆品牌策划,需要为新品哑光唇釉撰写 3 条文案,突出「丝绒不拔干」卖点,模仿「完美日记」活泼亲切的文风,每条带 2 个 emoji 表情。
模板 2:5W1H 精准提问法
围绕Who (谁用)、What (要什么)、When (时间限制)、Where (适用场景)、Why (核心目的)、How (输出格式 / 细节) 拆解需求
正确示范:(Who) 我是旅游新手,(What) 想要一个 (How) 分步骤的南京 2 日游攻略,(When) 本周末使用,(Where) 必打卡夫子庙和中山陵,(Why) 核心侧重文化体验。
第二部分 技术核心:底层原理 + 核心对比
2. 核心思想
(1)Post-Training:在基础模型上进行大规模强化学习
DeepSeek-R1-Zero 直接将强化学习(RL) 应用于基础模型,无需依赖监督微调(SFT) 作为前期步骤。这种创新方法使模型能够自主探索思维链(CoT),高效解决各类复杂问题。
DeepSeek-R1-Zero 展现出自我验证、自我反思、生成超长思维链等核心能力,是 AI 研究界的重要里程碑;更关键的是,这是首个经公开研究证实的案例 —— 大语言模型(LLMs)的推理能力可纯粹通过强化学习实现,无需监督微调参与,为大模型推理能力的研究与发展铺平了全新道路。
DeepSeek-R1 模型是 DeepSeek-R1-Zero 的升级版,核心升级为包含两个递进式强化学习阶段,具体如下:
① 面向推理的强化学习阶段
核心目的:聚焦提升模型在编码、数学、科学、逻辑推理等推理密集型任务上的核心性能。训练过程:先利用冷启动数据微调 DeepSeek-V3-Base 模型,再采用与 DeepSeek-R1-Zero 一致的强化学习训练方案;针对训练中出现的思维链语言混合问题,引入语言一致性奖励(根据目标语言单词比例计算),最终将「推理任务准确性」与「语言一致性奖励」加权求和形成最终奖励,持续训练直至模型在推理任务上收敛。
② 全场景强化学习阶段
核心目的:通过整合多源奖励信号和多样化数据分布,训练出可在各类场景下提供有用、无害、强推理的模型,进一步贴合人类偏好,全方位提升模型的帮助性、无害性及推理能力。训练过程:采用「组合奖励信号 + 多样提示分布」的训练模式;对推理类数据,沿用 DeepSeek-R1-Zero 方法论,依靠基于规则的奖励指导学习;对通用类数据,通过奖励模型捕捉人类偏好;基于 DeepSeek-V3 技术管道,采用类偏好对分布和训练提示 —— 帮助性层面聚焦最终摘要的实用性与相关性,无害性层面全面评估响应过程并缓解潜在风险,最终整合多源奖励与多样数据完成全场景训练。
(2)知识蒸馏:小模型也能拥有强大推理能力
DeepSeek 经实验证实,大模型的优质推理模式可高效蒸馏到小模型中,相较于直接通过强化学习训练小模型得到的推理模式,蒸馏法能实现更优的性能表现。开源的 DeepSeek-R1 及其应用程序编程接口(API),为研究界蒸馏更高效的小模型提供了核心支撑。
研究团队利用 DeepSeek-R1 生成的高质量推理数据,对研究界主流稠密模型进行微调,评估结果显示:经蒸馏的小稠密模型在各项基准测试中表现极佳,实现了 “小参数量 + 高性能” 的核心突破。
为助力全球 AI 社区发展,作者开源了基于Qwen2.5和Llama3系列蒸馏的模型文件,涵盖15 亿、70 亿、80 亿、140 亿、320 亿、700 亿六种参数规格,供研究者自由使用与优化。
3. 强化学习(RL)VS 监督微调(SFT)
从性能、数据、训练成本三大核心维度,对比两种技术的差异与适用场景,清晰呈现核心特性:
| 对比维度 | 强化学习(RL) | 监督微调(SFT) |
|---|---|---|
| 性能方面 | ・天花板更高:与环境交互学习,探索创造性、灵活性策略,有望在复杂任务上超越人类・训练不稳定:过程波动大、收敛慢,需大量样本和计算资源达理想效果 | ・数据决定表现:基于标注数据训练,快速在特定任务达高准确性,适配文本分类、情感分析等有明确标注的场景・依赖数据质量:标注数据偏差 / 不完整会导致模型过拟合,泛化能力受限 |
| 数据方面 | 侧重从环境反馈学习,对大规模标注数据依赖极小,无需高额数据标注成本 | 高度依赖高质量标注数据,数据的质量和数量直接决定模型最终性能,标注成本较高 |
| 训练成本 | 成本高:需大量计算资源和时间,持续与环境交互、更新策略;因训练不稳定,需多次调整超参数、重新训练 | 成本较低:训练过程稳定,在预训练模型基础上微调时,可大幅减少训练时间和资源消耗,效率更高 |
第三部分 实操指南:模型下载 + 本地运行 + 配置建议
4. 模型下载
(1)DeepSeek-R1 模型(基础版 + 升级版)
核心参数与下载地址如下,均支持 HuggingFace 获取:
| Model | #Total Params(总参数量) | #Activated Params(激活参数量) | Context Length(上下文长度) | Download(下载地址) |
|---|---|---|---|---|
| DeepSeek-R1-Zero | 671B | 37B | 128K | |
| DeepSeek-R1 | 671B | 37B | 128K |
(2)DeepSeek-R1 蒸馏模型
基于 DeepSeek-R1 高质量推理样本,在主流开源模型基础上微调得到,小参数量、高性能,适配各类轻量化部署场景:
| Model | Base Model(基础模型) | Download(下载地址) |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | |
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | |
| DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | |
| DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | |
| DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct |
5. 本地运行
DeepSeek-R1-Distill 蒸馏模型适配轻量化本地部署,提供两种简单便捷的服务启动方式,可根据自身环境选择:
方式 1:使用 vLLM 启动服务(推荐,高效便捷)
bash
运行
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
方式 2:使用 SGLang 启动服务
bash
运行
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
6. 实用配置建议
为充分发挥 DeepSeek-R1 系列模型的性能,规避常见问题,以下核心配置建议需重点遵循:
- 温度参数设置:建议控制在0.5 - 0.7范围内(最优推荐 0.6),有效防止输出无休止重复、内容前后不连贯;
- 系统提示规范:不要添加系统提示,所有指令、需求均包含在用户提示中,避免干扰模型推理逻辑;
- 逐步推理提示:针对数学、逻辑推理类问题,在提示中加入明确引导,例如:“请逐步推理,并将最终答案放在 \boxed {} 内”,引导模型生成完整思维链;
- 评估方法优化:评估模型性能时,建议多次测试并取结果平均值,减少偶然因素影响,确保评估准确性;
- 强制思维模式:模型在部分查询中会跳过思维模式(不输出 “\n\n” 分隔),影响推理完整性;建议强制模型在每次输出开头以 “\n” 起始,确保全面、完整推理。
第四部分 性能实测:DeepSeek-R1 系列模型效果评估
7.1 DeepSeek-R1 模型核心性能测试
统一评估标准:所有模型最大生成长度设为 32768 个词元;需采样的基准测试中,温度参数 0.6、核采样概率(top-p)0.95,每个查询生成 64 个回复以估算单样本通过率(pass@1)。
| 类别 | 测试基准 (Metric) | Claude-3.5-Sonnet-1022 | GPT-4o 0513 | DeepSeek V3 | OpenAI o1-mini | OpenAI o1-1217 | DeepSeek R1 |
|---|---|---|---|---|---|---|---|
| Code(编码) | - | - | - | MoE | - | - | MoE |
| - | - | - | 37B | - | - | 37B | |
| - | - | - | 671B | - | - | 671B | |
| LiveCodeBench (Pass@1-COT) | 33.8 | 34.2 | - | 53.8 | 63.4 | 65.9 | |
| Codeforces (Percentile) | 20.3 | 23.6 | 58.7 | 93.4 | 96.6 | 96.3 | |
| Codeforces (Rating) | 717 | 759 | 1134 | 1820 | 2061 | 2029 | |
| SWE Verified (Resolved) | 50.8 | 38.8 | 42.0 | 41.6 | 48.9 | 49.2 | |
| Aider-Polyglot (Acc.) | 45.3 | 16.0 | 49.6 | 32.9 | 61.7 | 53.3 | |
| Math(数学) | AIME 2024 (Pass@1) | 16.0 | 9.3 | 39.2 | 63.6 | 79.2 | 79.8 |
| MATH-500 (Pass@1) | 78.3 | 74.6 | 90.2 | 90.0 | 96.4 | 97.3 | |
| CNMO 2024 (Pass@1) | 13.1 | 10.8 | 43.2 | 67.6 | - | 78.8 | |
| Chinese(中文) | CLUEWSC (EM) | 85.4 | 87.9 | 90.9 | 89.9 | - | 92.8 |
| C-Eval (EM) | 76.7 | 76.0 | 86.5 | 68.9 | - | 91.8 | |
| C-SimpleQA (Correct) | 55.4 | 58.7 | 68.0 | 40.3 | - | 63.7 |
7.2 DeepSeek-R1-Distill 蒸馏模型性能测试
| Model | AIME 2024 pass@1 | AIME 2024 cons@64 | MATH-500 pass@1 | GPQA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces rating |
|---|---|---|---|---|---|---|
| GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
| Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
| o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
| QwQ-32B-Preview | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
| DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
| DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
| DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
| DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
| DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
| DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 |