视觉标记暴减 80%！Deepseek OCR 2 颠覆传统，文档解析力超 Gemini 3 Pro

GitHistoryRewriter · 2026 年2 月 3 日 11:13

OCR 技术迎来认知级突破！Deepseek 正式发布新一代 OCR 模型 Deepseek OCR 2，凭借创新的视觉编码架构，将视觉标记用量削减 80%，在文档解析能力上超越 Gemini 3 Pro，更让 AI 像人类一样灵活理解图像内容，为多模态处理开辟新路径。

传统 OCR 模型始终存在一个核心痛点：像 “扫雷” 一样逐行处理图像，既低效又无法真正理解内容逻辑。而 Deepseek OCR 2 的横空出世，彻底改变了这一现状。它模仿人类视觉认知模式，根据内容意义重新排列图像信息，而非固守 “左上到右下” 的固定顺序，让 AI 读懂图像的 “逻辑” 而非仅仅识别文字。

作为去年 10 月发布的第一代 Deepseek OCR 的升级版，这款新模型不仅延续了 “低内存、高吞吐” 的优势，更在核心技术架构上实现颠覆，代码与模型权重已在 GitHub 和 Hugging Face 全面开源，助力开发者快速落地应用。

一、核心革新：从 “逐行扫描” 到 “逻辑理解”

Deepseek OCR 2 的关键突破，在于全新的 DeepEncoder V2 视觉编码器。它彻底抛弃了传统视觉语言模型的 CLIP 组件，转而采用基于阿里巴巴 Qwen2 0.5B 的紧凑型语言模型架构，让图像处理更贴合人类认知逻辑。

1. 因果流代币：重构视觉信息排序

研究团队创新性地引入 “因果流代币” 技术 —— 这些可学习的查询标记能附加在视觉标记上，同时访问所有图像信息和历史查询记录。这一设计让模型摆脱了固定顺序的束缚：

传统模型：将图像切割成小段，按 “左上→右下” 逐行处理，如同机械扫描；
Deepseek OCR 2：先根据内容逻辑重新组织视觉标记，再传递给下游 LLM 解码器推理。

就像人类描螺旋图案时会跟随形状轨迹而非逐行跳跃，模型能根据图像内容的内在关联灵活排序，实现对二维图像的真正理解。

2. 两阶段处理：效率与精度双提升

整个处理流程分为两大核心步骤，形成高效闭环：

编码阶段：DeepEncoder V2 对视觉信息进行 “逻辑重组”，筛选关键内容；
解码阶段：仅将重新排列的因果流符号传递给 LLM，而非原始视觉符号，大幅降低计算压力。

这种设计让模型在减少标记用量的同时，反而提升了理解精度，完美解决了 “标记越多越精准” 的行业误区。

二、性能炸裂：标记减 80%，实力反超竞品

在核心性能指标上，Deepseek OCR 2 交出了惊艳答卷，用更少的资源实现了更强的能力。

1. 视觉标记锐减 80%，内存压力大减

传统 OCR 模型处理图像通常需要 6000-7000 个视觉标记，而 Deepseek OCR 2 根据图像复杂度，仅需 256-1120 个标记，用量直接减少 80%。这意味着：

内存需求大幅降低，适配更多轻量化场景；
处理速度提升，批量处理效率更高；
为长文档、多图像并行处理预留更多资源。

2. 文档解析力超 Gemini 3 Pro

在涵盖 9 大类别、1355 页文档的权威基准测试 OmniDocBench v1.5（支持中英文双语言）中，Deepseek OCR 2 取得 91.09% 的整体得分，较上一代提升 3.73 个百分点。尤其在 “识别正确阅读顺序” 这一关键维度，提升效果最为显著。

更值得关注的是，在相同令牌预算下，其文档解析能力直接超越 Gemini 3 Pro，成为该领域的标杆级模型。

3. 重复率显著降低，实用性升级

在实际应用场景中，模型的冗余文本循环问题得到明显改善：

作为 Deepseek 语言模型 OCR 后端时，重复率从 6.25% 降至 4.17%；
批量处理 PDF 生成训练数据时，重复率从 3.69% 降至 2.88%，大幅提升数据质量。

三、应用与局限：优势突出，仍有优化空间

1. 适用场景：高效处理多类型文档

Deepseek OCR 2 延续了上一代的高吞吐优势，每天可处理多达 3300 万页文档，尤其适合：

大型训练数据集生成；
长文档、多语言文档解析；
低内存环境下的 OCR 任务；
对处理顺序准确性要求高的场景。

2. 现存短板：报纸处理能力待提升

模型并非完美无缺，其在报纸类文档处理上的表现略逊于前作。研究人员分析了两大原因：

代币限制：较低的视觉标记用量难以覆盖报纸页面的大量文字；
数据不足：训练数据中仅包含 25 万页报纸内容，样本量相对有限。

四、未来展望：迈向统一多模态处理

Deepseek OCR 2 的技术突破，不仅优化了 OCR 任务，更为多模态处理提供了新范式。研究团队表示，DeepEncoder V2 架构未来有望实现 “全模态统一处理”—— 用相同的基本框架适配文本、语音、图像等不同模态，仅通过调整查询标记即可完成适配。

这一愿景若实现，将彻底打破不同模态之间的技术壁垒，让 AI 实现更连贯、更统一的多维度理解能力，为智能办公、自动驾驶、智能交互等场景带来革命性变化。

结语：OCR 技术进入 “认知理解” 新时代

从 “机械扫描” 到 “逻辑理解”，Deepseek OCR 2 的发布标志着 OCR 技术正式迈入认知级新阶段。它用 80% 的标记削减、超越竞品的解析精度证明：技术的进步不在于资源的堆砌，而在于对核心逻辑的深刻洞察。

对于开发者而言，开源的模型与代码为二次开发提供了便利；对于行业而言，这种 “模仿人类认知” 的技术思路，为多模态 AI 的发展提供了重要参考。尽管仍有优化空间，但 Deepseek OCR 2 无疑为 OCR 乃至整个计算机视觉领域，指明了一条高效、精准、贴合实际需求的创新路径。

开源地址

GitHub：https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

Hugging Face：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

logic7 · 2026 年2 月 3 日 11:24

标记减80%真厉害

shrimp0 · 2026 年2 月 3 日 11:36

这个新模型看起来确实挺厉害的

coderX · 2026 年2 月 3 日 12:50

开源真香
标记减这么多
处理长文档稳了

oldme · 2026 年2 月 3 日 16:21

这思路有点意思
模仿人类视觉逻辑
开源速度真快

justin66 · 2026 年2 月 4 日 07:32

这波更新有点东西啊标记砍掉八成还能反超Gemini 开源社区又要热闹起来了

nonono · 2026 年2 月 5 日 12:12

深夜刷到技术文
标记用量砍80%有点猛
开源速度真快啊

uxmaster · 2026 年2 月 6 日 01:41

标记减这么多太牛了