DeepSeek是中国开源AI的明星团队,从2023年底起步,快速迭代出超强模型。V1奠基MoE高效架构,V2解决推理瓶颈,V3进一步提升训练与生成效率。10分钟带你速通核心技术,图文并茂,一看就懂!
1. DeepSeek-V1时代:MoE架构革命(2023-2024初)
早期DeepSeek(常称V1系列,如DeepSeek-LLM 67B)引入创新**Mixture of Experts (MoE,专家混合)**架构,让大模型“又大又省”。
核心创新:
- 细粒度专家划分:把大专家拆成更多小专家,灵活组合。
- 共享专家 + 路由专家:共享专家处理共性,路由专家专注个性。
- 负载均衡优化:动态偏置,避免专家负载不均。
结果:总参数巨大(如数百B),但激活仅小部分(类似Mixtral),推理成本低,性能却接近稠密模型。
(经典MoE架构图:路由器动态选专家,只激活少数,节省计算)
2. DeepSeek-V2:MLA攻克KV Cache痛点(2024年6月)
V2(236B总参数,激活21B)最大亮点是Multi-Head Latent Attention (MLA,多头隐式注意力),专治Transformer推理显存爆炸。
痛点:传统多头注意力(MHA)生成时需缓存完整KV,上下文越长显存越多。

(KV Cache机制:缓存过去KV,避免重复算,但占用巨大显存)
MLA解决方案:
- 低秩压缩:KV投影到低维“隐向量”(Latent Vector),只缓存这个小向量。
- 解耦RoPE:位置编码单独处理,不破坏压缩。
- 对比MQA/GQA:MLA保留多头表达力,却缓存少93%+。
益处:支持超长上下文(128K),推理吞吐提升5倍+,训练成本降42%。
(MLA原理图:压缩-缓存隐向量-解压恢复,巧妙省内存)
3. DeepSeek-V3:MTP + FP8,效率巅峰(2024年12月)
V3(671B总参数,激活37B)在H800集群上仅花560万刀训练,性能直逼顶级闭源模型。
两大核心:
- Multi-Token Prediction (MTP,多令牌预测):不只预测下一个token,一次预测多个。训练捕捉更强依赖,推理直接加速生成。
(MTP vs 单token:级联结构,一次并行多步,加速明显)
- FP8混合精度训练:用8位浮点加速计算,关键部分保留高精度(BF16),稳定性不降。
(FP8框架:计算密集用低精度,关键模块高精度,速度翻倍)
- 其他:DualPipe等Infra优化,进一步MoE完善。
整体架构:
(DeepSeek-V3总览:MoE + MLA + MTP,高效王者)
总结:DeepSeek的进化之道
从V1的MoE省计算,到V2的MLA省内存,再到V3的MTP+FP8提速度——DeepSeek证明:不开源闭源也能靠算法创新“弯道超车”。开源+高效,让大家都能玩转超大模型!
读完只需10分钟,懂了核心点,下次聊AI你也能侃侃而谈~ 快去试试DeepSeek模型吧!











