OCR 技术迎来认知级突破!Deepseek 正式发布新一代 OCR 模型 Deepseek OCR 2,凭借创新的视觉编码架构,将视觉标记用量削减 80%,在文档解析能力上超越 Gemini 3 Pro,更让 AI 像人类一样灵活理解图像内容,为多模态处理开辟新路径。
传统 OCR 模型始终存在一个核心痛点:像 “扫雷” 一样逐行处理图像,既低效又无法真正理解内容逻辑。而 Deepseek OCR 2 的横空出世,彻底改变了这一现状。它模仿人类视觉认知模式,根据内容意义重新排列图像信息,而非固守 “左上到右下” 的固定顺序,让 AI 读懂图像的 “逻辑” 而非仅仅识别文字。
作为去年 10 月发布的第一代 Deepseek OCR 的升级版,这款新模型不仅延续了 “低内存、高吞吐” 的优势,更在核心技术架构上实现颠覆,代码与模型权重已在 GitHub 和 Hugging Face 全面开源,助力开发者快速落地应用。
一、核心革新:从 “逐行扫描” 到 “逻辑理解”
Deepseek OCR 2 的关键突破,在于全新的 DeepEncoder V2 视觉编码器。它彻底抛弃了传统视觉语言模型的 CLIP 组件,转而采用基于阿里巴巴 Qwen2 0.5B 的紧凑型语言模型架构,让图像处理更贴合人类认知逻辑。
1. 因果流代币:重构视觉信息排序
研究团队创新性地引入 “因果流代币” 技术 —— 这些可学习的查询标记能附加在视觉标记上,同时访问所有图像信息和历史查询记录。这一设计让模型摆脱了固定顺序的束缚:
-
传统模型:将图像切割成小段,按 “左上→右下” 逐行处理,如同机械扫描;
-
Deepseek OCR 2:先根据内容逻辑重新组织视觉标记,再传递给下游 LLM 解码器推理。
就像人类描螺旋图案时会跟随形状轨迹而非逐行跳跃,模型能根据图像内容的内在关联灵活排序,实现对二维图像的真正理解。
2. 两阶段处理:效率与精度双提升
整个处理流程分为两大核心步骤,形成高效闭环:
-
编码阶段:DeepEncoder V2 对视觉信息进行 “逻辑重组”,筛选关键内容;
-
解码阶段:仅将重新排列的因果流符号传递给 LLM,而非原始视觉符号,大幅降低计算压力。
这种设计让模型在减少标记用量的同时,反而提升了理解精度,完美解决了 “标记越多越精准” 的行业误区。
二、性能炸裂:标记减 80%,实力反超竞品
在核心性能指标上,Deepseek OCR 2 交出了惊艳答卷,用更少的资源实现了更强的能力。
1. 视觉标记锐减 80%,内存压力大减
传统 OCR 模型处理图像通常需要 6000-7000 个视觉标记,而 Deepseek OCR 2 根据图像复杂度,仅需 256-1120 个标记,用量直接减少 80%。这意味着:
-
内存需求大幅降低,适配更多轻量化场景;
-
处理速度提升,批量处理效率更高;
-
为长文档、多图像并行处理预留更多资源。
2. 文档解析力超 Gemini 3 Pro
在涵盖 9 大类别、1355 页文档的权威基准测试 OmniDocBench v1.5(支持中英文双语言)中,Deepseek OCR 2 取得 91.09% 的整体得分,较上一代提升 3.73 个百分点。尤其在 “识别正确阅读顺序” 这一关键维度,提升效果最为显著。
更值得关注的是,在相同令牌预算下,其文档解析能力直接超越 Gemini 3 Pro,成为该领域的标杆级模型。
3. 重复率显著降低,实用性升级
在实际应用场景中,模型的冗余文本循环问题得到明显改善:
-
作为 Deepseek 语言模型 OCR 后端时,重复率从 6.25% 降至 4.17%;
-
批量处理 PDF 生成训练数据时,重复率从 3.69% 降至 2.88%,大幅提升数据质量。
三、应用与局限:优势突出,仍有优化空间
1. 适用场景:高效处理多类型文档
Deepseek OCR 2 延续了上一代的高吞吐优势,每天可处理多达 3300 万页文档,尤其适合:
-
大型训练数据集生成;
-
长文档、多语言文档解析;
-
低内存环境下的 OCR 任务;
-
对处理顺序准确性要求高的场景。
2. 现存短板:报纸处理能力待提升
模型并非完美无缺,其在报纸类文档处理上的表现略逊于前作。研究人员分析了两大原因:
-
代币限制:较低的视觉标记用量难以覆盖报纸页面的大量文字;
-
数据不足:训练数据中仅包含 25 万页报纸内容,样本量相对有限。
四、未来展望:迈向统一多模态处理
Deepseek OCR 2 的技术突破,不仅优化了 OCR 任务,更为多模态处理提供了新范式。研究团队表示,DeepEncoder V2 架构未来有望实现 “全模态统一处理”—— 用相同的基本框架适配文本、语音、图像等不同模态,仅通过调整查询标记即可完成适配。
这一愿景若实现,将彻底打破不同模态之间的技术壁垒,让 AI 实现更连贯、更统一的多维度理解能力,为智能办公、自动驾驶、智能交互等场景带来革命性变化。
结语:OCR 技术进入 “认知理解” 新时代
从 “机械扫描” 到 “逻辑理解”,Deepseek OCR 2 的发布标志着 OCR 技术正式迈入认知级新阶段。它用 80% 的标记削减、超越竞品的解析精度证明:技术的进步不在于资源的堆砌,而在于对核心逻辑的深刻洞察。
对于开发者而言,开源的模型与代码为二次开发提供了便利;对于行业而言,这种 “模仿人类认知” 的技术思路,为多模态 AI 的发展提供了重要参考。尽管仍有优化空间,但 Deepseek OCR 2 无疑为 OCR 乃至整个计算机视觉领域,指明了一条高效、精准、贴合实际需求的创新路径。
开源地址
GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
