视觉标记暴减 80%!Deepseek OCR 2 颠覆传统,文档解析力超 Gemini 3 Pro

OCR 技术迎来认知级突破!Deepseek 正式发布新一代 OCR 模型 Deepseek OCR 2,凭借创新的视觉编码架构,将视觉标记用量削减 80%,在文档解析能力上超越 Gemini 3 Pro,更让 AI 像人类一样灵活理解图像内容,为多模态处理开辟新路径。

传统 OCR 模型始终存在一个核心痛点:像 “扫雷” 一样逐行处理图像,既低效又无法真正理解内容逻辑。而 Deepseek OCR 2 的横空出世,彻底改变了这一现状。它模仿人类视觉认知模式,根据内容意义重新排列图像信息,而非固守 “左上到右下” 的固定顺序,让 AI 读懂图像的 “逻辑” 而非仅仅识别文字。

作为去年 10 月发布的第一代 Deepseek OCR 的升级版,这款新模型不仅延续了 “低内存、高吞吐” 的优势,更在核心技术架构上实现颠覆,代码与模型权重已在 GitHub 和 Hugging Face 全面开源,助力开发者快速落地应用。

一、核心革新:从 “逐行扫描” 到 “逻辑理解”

Deepseek OCR 2 的关键突破,在于全新的 DeepEncoder V2 视觉编码器。它彻底抛弃了传统视觉语言模型的 CLIP 组件,转而采用基于阿里巴巴 Qwen2 0.5B 的紧凑型语言模型架构,让图像处理更贴合人类认知逻辑。

1. 因果流代币:重构视觉信息排序

研究团队创新性地引入 “因果流代币” 技术 —— 这些可学习的查询标记能附加在视觉标记上,同时访问所有图像信息和历史查询记录。这一设计让模型摆脱了固定顺序的束缚:

  • 传统模型:将图像切割成小段,按 “左上→右下” 逐行处理,如同机械扫描;

  • Deepseek OCR 2:先根据内容逻辑重新组织视觉标记,再传递给下游 LLM 解码器推理。

就像人类描螺旋图案时会跟随形状轨迹而非逐行跳跃,模型能根据图像内容的内在关联灵活排序,实现对二维图像的真正理解。

2. 两阶段处理:效率与精度双提升

整个处理流程分为两大核心步骤,形成高效闭环:

  1. 编码阶段:DeepEncoder V2 对视觉信息进行 “逻辑重组”,筛选关键内容;

  2. 解码阶段:仅将重新排列的因果流符号传递给 LLM,而非原始视觉符号,大幅降低计算压力。

这种设计让模型在减少标记用量的同时,反而提升了理解精度,完美解决了 “标记越多越精准” 的行业误区。

二、性能炸裂:标记减 80%,实力反超竞品

在核心性能指标上,Deepseek OCR 2 交出了惊艳答卷,用更少的资源实现了更强的能力。

1. 视觉标记锐减 80%,内存压力大减

传统 OCR 模型处理图像通常需要 6000-7000 个视觉标记,而 Deepseek OCR 2 根据图像复杂度,仅需 256-1120 个标记,用量直接减少 80%。这意味着:

  • 内存需求大幅降低,适配更多轻量化场景;

  • 处理速度提升,批量处理效率更高;

  • 为长文档、多图像并行处理预留更多资源。

2. 文档解析力超 Gemini 3 Pro

在涵盖 9 大类别、1355 页文档的权威基准测试 OmniDocBench v1.5(支持中英文双语言)中,Deepseek OCR 2 取得 91.09% 的整体得分,较上一代提升 3.73 个百分点。尤其在 “识别正确阅读顺序” 这一关键维度,提升效果最为显著。

更值得关注的是,在相同令牌预算下,其文档解析能力直接超越 Gemini 3 Pro,成为该领域的标杆级模型。

3. 重复率显著降低,实用性升级

在实际应用场景中,模型的冗余文本循环问题得到明显改善:

  • 作为 Deepseek 语言模型 OCR 后端时,重复率从 6.25% 降至 4.17%;

  • 批量处理 PDF 生成训练数据时,重复率从 3.69% 降至 2.88%,大幅提升数据质量。

三、应用与局限:优势突出,仍有优化空间

1. 适用场景:高效处理多类型文档

Deepseek OCR 2 延续了上一代的高吞吐优势,每天可处理多达 3300 万页文档,尤其适合:

  • 大型训练数据集生成;

  • 长文档、多语言文档解析;

  • 低内存环境下的 OCR 任务;

  • 对处理顺序准确性要求高的场景。

2. 现存短板:报纸处理能力待提升

模型并非完美无缺,其在报纸类文档处理上的表现略逊于前作。研究人员分析了两大原因:

  • 代币限制:较低的视觉标记用量难以覆盖报纸页面的大量文字;

  • 数据不足:训练数据中仅包含 25 万页报纸内容,样本量相对有限。

四、未来展望:迈向统一多模态处理

Deepseek OCR 2 的技术突破,不仅优化了 OCR 任务,更为多模态处理提供了新范式。研究团队表示,DeepEncoder V2 架构未来有望实现 “全模态统一处理”—— 用相同的基本框架适配文本、语音、图像等不同模态,仅通过调整查询标记即可完成适配。

这一愿景若实现,将彻底打破不同模态之间的技术壁垒,让 AI 实现更连贯、更统一的多维度理解能力,为智能办公、自动驾驶、智能交互等场景带来革命性变化。

结语:OCR 技术进入 “认知理解” 新时代

从 “机械扫描” 到 “逻辑理解”,Deepseek OCR 2 的发布标志着 OCR 技术正式迈入认知级新阶段。它用 80% 的标记削减、超越竞品的解析精度证明:技术的进步不在于资源的堆砌,而在于对核心逻辑的深刻洞察。

对于开发者而言,开源的模型与代码为二次开发提供了便利;对于行业而言,这种 “模仿人类认知” 的技术思路,为多模态 AI 的发展提供了重要参考。尽管仍有优化空间,但 Deepseek OCR 2 无疑为 OCR 乃至整个计算机视觉领域,指明了一条高效、精准、贴合实际需求的创新路径。

开源地址

GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

标记减80%真厉害

这个新模型看起来确实挺厉害的

开源真香
标记减这么多
处理长文档稳了

这思路有点意思
模仿人类视觉逻辑
开源速度真快

这波更新有点东西啊 标记砍掉八成还能反超Gemini 开源社区又要热闹起来了

深夜刷到技术文
标记用量砍80%有点猛
开源速度真快啊

标记减这么多太牛了