新手必看!如何快速上手DeepSeek?

之前尝试了许多AI,包括但不限于Kimi、豆包等。昨晚抱着试一试的态度,体验了一下这两天风很大的DeepSeek,没想到真的让我眼前一亮!相较于其他AI直接给出答案,DeepSeek能显示它的完整逻辑推理,真的很“人”化!

为了让更多朋友能够快速了解上手,因此,:white_check_mark: 让DeepSeek帮我整合了它的使用指南,正好大家也能感受。

第一部分 快速上手:懂能力 + 会提问,新手秒会用

一、先懂原理:DeepSeek 的两大核心超能力

1. 深度思考(R1)—— AI 的超级大脑

核心特性:white_check_mark: 基于海量知识库进行推理分析:white_check_mark: 擅长逻辑 / 创意类复杂问题解答:white_check_mark: 推理响应速度极快

经典适用场景:数学解题、写作辅助、专业知识解释、技能教学

举例:问:用比喻手法解释区块链技术?答:区块链就像一本全员记账的公共账本,每笔交易都会被盖上时间戳并串成链条,谁也无法偷偷修改。

2. 联网搜索 —— AI 的实时搜索引擎

核心特性:white_check_mark: 实时抓取最新网络信息 :white_check_mark: 精准覆盖知识盲区与时效型内容 :white_check_mark: 支持多语言结果整合

经典适用场景:实时信息查询、数据获取、事实核验、冷知识解答

举例:问:对比今日京东和抖音的 iPhone14 低价?答:正在检索… 京东自营 128G 版 4899 元,抖音商城 4799 元(需领取满减券)。

二、正确提问:新手快速搞定 DeepSeek 的核心方法

1. 核心基本原则

像给 AI “写任务清单” 一样提问提问越具体,AI 的回答越精准,避免模糊化表达。

三大避坑误区 :warning: 忌抽象表达:将 “要高级感” → 改为 “类似 CELINE 品牌视觉手册的极简风格”:warning: 忌多重否定:将 “不要复杂不要太幼稚” → 改为 “适合职场新人的轻熟简约风”:warning: 忌开放提问:将 “你怎么看?” → 改为 “请从市场营销角度分析三个可行方案”

2. 万能提问模板(直接套用)

模板 1:身份设定 + 任务描述 + 输出要求 + 风格示例

:cross_mark: 错误示范:写一篇美妆文案:white_check_mark: 正确示范:你是有 5 年经验的国货彩妆品牌策划,需要为新品哑光唇釉撰写 3 条文案,突出「丝绒不拔干」卖点,模仿「完美日记」活泼亲切的文风,每条带 2 个 emoji 表情。

模板 2:5W1H 精准提问法

围绕Who (谁用)、What (要什么)、When (时间限制)、Where (适用场景)、Why (核心目的)、How (输出格式 / 细节) 拆解需求:white_check_mark: 正确示范:(Who) 我是旅游新手,(What) 想要一个 (How) 分步骤的南京 2 日游攻略,(When) 本周末使用,(Where) 必打卡夫子庙和中山陵,(Why) 核心侧重文化体验。

第二部分 技术核心:底层原理 + 核心对比

2. 核心思想

(1)Post-Training:在基础模型上进行大规模强化学习

DeepSeek-R1-Zero 直接将强化学习(RL) 应用于基础模型,无需依赖监督微调(SFT) 作为前期步骤。这种创新方法使模型能够自主探索思维链(CoT),高效解决各类复杂问题。

DeepSeek-R1-Zero 展现出自我验证、自我反思、生成超长思维链等核心能力,是 AI 研究界的重要里程碑;更关键的是,这是首个经公开研究证实的案例 —— 大语言模型(LLMs)的推理能力可纯粹通过强化学习实现,无需监督微调参与,为大模型推理能力的研究与发展铺平了全新道路。

DeepSeek-R1 模型是 DeepSeek-R1-Zero 的升级版,核心升级为包含两个递进式强化学习阶段,具体如下:

① 面向推理的强化学习阶段

核心目的:聚焦提升模型在编码、数学、科学、逻辑推理等推理密集型任务上的核心性能。训练过程:先利用冷启动数据微调 DeepSeek-V3-Base 模型,再采用与 DeepSeek-R1-Zero 一致的强化学习训练方案;针对训练中出现的思维链语言混合问题,引入语言一致性奖励(根据目标语言单词比例计算),最终将「推理任务准确性」与「语言一致性奖励」加权求和形成最终奖励,持续训练直至模型在推理任务上收敛。

② 全场景强化学习阶段

核心目的:通过整合多源奖励信号多样化数据分布,训练出可在各类场景下提供有用、无害、强推理的模型,进一步贴合人类偏好,全方位提升模型的帮助性、无害性及推理能力。训练过程:采用「组合奖励信号 + 多样提示分布」的训练模式;对推理类数据,沿用 DeepSeek-R1-Zero 方法论,依靠基于规则的奖励指导学习;对通用类数据,通过奖励模型捕捉人类偏好;基于 DeepSeek-V3 技术管道,采用类偏好对分布和训练提示 —— 帮助性层面聚焦最终摘要的实用性与相关性,无害性层面全面评估响应过程并缓解潜在风险,最终整合多源奖励与多样数据完成全场景训练。

(2)知识蒸馏:小模型也能拥有强大推理能力

DeepSeek 经实验证实,大模型的优质推理模式可高效蒸馏到小模型中,相较于直接通过强化学习训练小模型得到的推理模式,蒸馏法能实现更优的性能表现。开源的 DeepSeek-R1 及其应用程序编程接口(API),为研究界蒸馏更高效的小模型提供了核心支撑。

研究团队利用 DeepSeek-R1 生成的高质量推理数据,对研究界主流稠密模型进行微调,评估结果显示:经蒸馏的小稠密模型在各项基准测试中表现极佳,实现了 “小参数量 + 高性能” 的核心突破。

为助力全球 AI 社区发展,作者开源了基于Qwen2.5Llama3系列蒸馏的模型文件,涵盖15 亿、70 亿、80 亿、140 亿、320 亿、700 亿六种参数规格,供研究者自由使用与优化。

3. 强化学习(RL)VS 监督微调(SFT)

性能、数据、训练成本三大核心维度,对比两种技术的差异与适用场景,清晰呈现核心特性:

对比维度 强化学习(RL) 监督微调(SFT)
性能方面 ・天花板更高:与环境交互学习,探索创造性、灵活性策略,有望在复杂任务上超越人类・训练不稳定:过程波动大、收敛慢,需大量样本和计算资源达理想效果 ・数据决定表现:基于标注数据训练,快速在特定任务达高准确性,适配文本分类、情感分析等有明确标注的场景・依赖数据质量:标注数据偏差 / 不完整会导致模型过拟合,泛化能力受限
数据方面 侧重从环境反馈学习,对大规模标注数据依赖极小,无需高额数据标注成本 高度依赖高质量标注数据,数据的质量和数量直接决定模型最终性能,标注成本较高
训练成本 成本高:需大量计算资源和时间,持续与环境交互、更新策略;因训练不稳定,需多次调整超参数、重新训练 成本较低:训练过程稳定,在预训练模型基础上微调时,可大幅减少训练时间和资源消耗,效率更高

第三部分 实操指南:模型下载 + 本地运行 + 配置建议

4. 模型下载

(1)DeepSeek-R1 模型(基础版 + 升级版)

核心参数与下载地址如下,均支持 HuggingFace 获取:

Model #Total Params(总参数量) #Activated Params(激活参数量) Context Length(上下文长度) Download(下载地址)
DeepSeek-R1-Zero 671B 37B 128K :hugs: HuggingFace
DeepSeek-R1 671B 37B 128K :hugs: HuggingFace

(2)DeepSeek-R1 蒸馏模型

基于 DeepSeek-R1 高质量推理样本,在主流开源模型基础上微调得到,小参数量、高性能,适配各类轻量化部署场景:

Model Base Model(基础模型) Download(下载地址)
DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Math-1.5B :hugs: HuggingFace
DeepSeek-R1-Distill-Qwen-7B Qwen2.5-Math-7B :hugs: HuggingFace
DeepSeek-R1-Distill-Llama-8B Llama-3.1-8B :hugs: HuggingFace
DeepSeek-R1-Distill-Qwen-14B Qwen2.5-14B :hugs: HuggingFace
DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B :hugs: HuggingFace
DeepSeek-R1-Distill-Llama-70B Llama-3.3-70B-Instruct :hugs: HuggingFace

5. 本地运行

DeepSeek-R1-Distill 蒸馏模型适配轻量化本地部署,提供两种简单便捷的服务启动方式,可根据自身环境选择:

方式 1:使用 vLLM 启动服务(推荐,高效便捷

bash

运行

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

方式 2:使用 SGLang 启动服务

bash

运行

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

6. 实用配置建议

为充分发挥 DeepSeek-R1 系列模型的性能,规避常见问题,以下核心配置建议需重点遵循:

  1. 温度参数设置:建议控制在0.5 - 0.7范围内(最优推荐 0.6),有效防止输出无休止重复、内容前后不连贯;
  2. 系统提示规范不要添加系统提示,所有指令、需求均包含在用户提示中,避免干扰模型推理逻辑;
  3. 逐步推理提示:针对数学、逻辑推理类问题,在提示中加入明确引导,例如:“请逐步推理,并将最终答案放在 \boxed {} 内”,引导模型生成完整思维链;
  4. 评估方法优化:评估模型性能时,建议多次测试并取结果平均值,减少偶然因素影响,确保评估准确性;
  5. 强制思维模式:模型在部分查询中会跳过思维模式(不输出 “\n\n” 分隔),影响推理完整性;建议强制模型在每次输出开头以 “\n” 起始,确保全面、完整推理。

第四部分 性能实测:DeepSeek-R1 系列模型效果评估

7.1 DeepSeek-R1 模型核心性能测试

统一评估标准:所有模型最大生成长度设为 32768 个词元;需采样的基准测试中,温度参数 0.6、核采样概率(top-p)0.95,每个查询生成 64 个回复以估算单样本通过率(pass@1)。

类别 测试基准 (Metric) Claude-3.5-Sonnet-1022 GPT-4o 0513 DeepSeek V3 OpenAI o1-mini OpenAI o1-1217 DeepSeek R1
Code(编码) - - - MoE - - MoE
- - - 37B - - 37B
- - - 671B - - 671B
LiveCodeBench (Pass@1-COT) 33.8 34.2 - 53.8 63.4 65.9
Codeforces (Percentile) 20.3 23.6 58.7 93.4 96.6 96.3
Codeforces (Rating) 717 759 1134 1820 2061 2029
SWE Verified (Resolved) 50.8 38.8 42.0 41.6 48.9 49.2
Aider-Polyglot (Acc.) 45.3 16.0 49.6 32.9 61.7 53.3
Math(数学) AIME 2024 (Pass@1) 16.0 9.3 39.2 63.6 79.2 79.8
MATH-500 (Pass@1) 78.3 74.6 90.2 90.0 96.4 97.3
CNMO 2024 (Pass@1) 13.1 10.8 43.2 67.6 - 78.8
Chinese(中文) CLUEWSC (EM) 85.4 87.9 90.9 89.9 - 92.8
C-Eval (EM) 76.7 76.0 86.5 68.9 - 91.8
C-SimpleQA (Correct) 55.4 58.7 68.0 40.3 - 63.7

7.2 DeepSeek-R1-Distill 蒸馏模型性能测试

Model AIME 2024 pass@1 AIME 2024 cons@64 MATH-500 pass@1 GPQA Diamond pass@1 LiveCodeBench pass@1 CodeForces rating
GPT-4o-0513 9.3 13.4 74.6 49.9 32.9 759
Claude-3.5-Sonnet-1022 16.0 26.7 78.3 65.0 38.9 717
o1-mini 63.6 80.0 90.0 60.0 53.8 1820
QwQ-32B-Preview 44.0 60.0 90.6 54.5 41.9 1316
DeepSeek-R1-Distill-Qwen-1.5B 28.9 52.7 83.9 33.8 16.9 954
DeepSeek-R1-Distill-Qwen-7B 55.5 83.3 92.8 49.1 37.6 1189
DeepSeek-R1-Distill-Qwen-14B 69.7 80.0 93.9 59.1 53.1 1481
DeepSeek-R1-Distill-Qwen-32B 72.6 83.3 94.3 62.1 57.2 1691
DeepSeek-R1-Distill-Llama-8B 50.4 80.0 89.1 49.0 39.6 1205
DeepSeek-R1-Distill-Llama-70B 70.0 86.7 94.5

这个指南整理得真详细啊

R1架构确实惊艳

哇这指南也太详细了吧!上班摸鱼看到这个简直赚到,逻辑推理部分确实很惊艳,感觉比之前用的AI更接近真人思考过程。

这个指南整理得真用心!R1的推理过程确实比直接给答案更有价值,能看到思考路径对理解复杂问题帮助很大。

这指南真够全的 收藏了慢慢看

这个深度思考功能确实有意思啊,半夜看到技术细节有点上头,感觉比直接给答案那种AI靠谱多了。

这指南也太详细了吧