传统视觉 - 语言模型(VLMs)采用 “光栅扫描” 式固定顺序处理图像,易忽略内容内在逻辑,导致复杂文档理解错乱。为此,DeepSeek 推出全新模型 DeepSeek-OCR 2,通过创新的 DeepEncoder V2 编码器赋予模型因果推理能力,让 AI 按语义逻辑动态重排图像特征,而非物理位置扫描,在保持高压缩率的同时,实现识别准确率与阅读逻辑性的双重飞跃。作为聚焦 DeepSeek 生态的社区,我们带大家拆解这项技术的核心创新与实测表现。
一、论文核心信息
-
论文标题:DeepSeek-OCR 2: Visual Causal Flow
-
作者团队:Haoran Wei、Yaofeng Sun、Yukun Li(DeepSeek-AI)
-
开源资源:论文链接(https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf)、代码链接(https://github.com/deepseek-ai/DeepSeek-OCR-2)
二、核心创新与贡献
-
架构革新:设计 DeepEncoder V2 编码器,用 Qwen2-0.5B 小型语言模型架构替代传统 CLIP 视觉编码器,实现视觉特征语义级因果重排序;
-
机制突破:引入可学习的因果流查询(Causal Flow Query),通过定制注意力掩码,结合视觉标记的双向感知与查询标记的单向因果推理;
-
范式升级:提出 “双重级联因果推理”,编码器负责视觉逻辑排序,解码器专注内容生成,深化模型对二维空间结构的理解;
-
性能领先:在 OmniDocBench v1.5 基准测试中,以更少视觉标记实现 91.09% 准确率,显著优于前代及同类竞品。
三、技术原理与架构设计
DeepSeek-OCR 2 延续 “编码器 + 解码器” 框架,核心创新集中在 DeepEncoder V2:
1. 核心模块组成
-
视觉分词器:基于 8000 万参数 SAM-base 模型与卷积层,实现 16 倍降采样压缩,将图像转化为视觉标记(Visual Tokens),大幅降低计算量;
-
类 LLM 视觉编码器:用 Qwen2-0.5B 语言模型架构替换 CLIP 模块,不仅提取特征,更能梳理特征逻辑顺序;
-
因果流查询:在视觉标记序列后拼接可学习查询向量,通过前缀拼接方式,让查询向量基于视觉标记进行逻辑推理。
2. 混合注意力机制
注意力掩码由两部分组成,兼顾全局感知与逻辑排序:
-
视觉标记区(左侧):采用双向注意力,每个视觉标记可感知全局图像信息,保留 ViT 的全局感受野;
-
因果查询区(右侧):采用因果注意力(下三角掩码),第 i 个查询向量仅能关注前序查询向量与所有视觉标记,契合语言模型解码逻辑。
3. 级联因果推理流程
-
图像经视觉分词器生成视觉标记,与查询向量拼接;
-
编码器处理后,仅截取查询向量输出送入解码器;
-
编码器完成视觉逻辑排序,解码器负责文本生成,实现两级因果推理。
四、实验结果与性能表现
实验基于 OmniDocBench v1.5 数据集(1355 张文档页面,覆盖 9 大类场景),经 “编码器预训练→查询增强→解码器微调” 三阶段训练,核心结果如下:
1. 基准测试霸榜
-
综合准确率达 91.09%,较前代提升 3.73%,视觉标记上限仅 1120(远低于同类模型的 6000+);
-
阅读顺序(R-order)编辑距离从 0.085 降至 0.057,逻辑理解能力显著提升;
-
与 Gemini-2.5 Pro、Qwen2.5-VL 等竞品相比,以更低资源开销实现更优性能。
2. 细分场景表现
-
优势场景:学术论文、书籍、教材等结构化文档识别效果优异;
-
待优化场景:报纸等文本密集、排版复杂的场景,因视觉标记上限限制导致信息丢失,编辑距离>0.13,可通过增加局部裁剪数量改进。
3. 生产环境验证
-
在线用户日志图像处理:重复率从 6.25% 降至 4.17%,降幅 2.08%;
-
PDF 预训练数据清洗:重复率从 3.69% 降至 2.88%,降幅 0.81%;
-
生成文本更通顺连贯,实用价值大幅提升。
五、技术评价与未来方向
1. 核心优势
-
架构新颖:将 LLM 架构引入视觉编码,通过注意力掩码巧妙解决视觉特征逻辑排序问题;
-
效率与性能兼顾:以极少视觉标记实现顶尖性能,大幅降低推理成本;
-
通用性强:为统一多模态编码器发展提供可行路径,适配更多场景。
2. 现存不足
-
高密度场景受限:文本极度密集的文档处理易出现信息丢失;
-
数据依赖性较高:特定布局数据样本不足会影响表现;
-
长序列推理有限:当前因果查询长度难以支撑复杂视觉任务的多跳推理。
DeepSeek-OCR 2 的发布,不仅为 OCR 任务提供了高效新架构,更为多模态大模型数据构建提供了强力工具。作为开源生态的重要创新,其技术思路与实践成果值得开发者深入研究。你对这项因果推理视觉编码技术有哪些应用设想?欢迎在评论区分享你的见解!



