DeepSeek-OCR 2 性能霸榜!弃用 CLIP 架构,因果推理重构视觉理解,准确率突破 91%

传统视觉 - 语言模型(VLMs)采用 “光栅扫描” 式固定顺序处理图像,易忽略内容内在逻辑,导致复杂文档理解错乱。为此,DeepSeek 推出全新模型 DeepSeek-OCR 2,通过创新的 DeepEncoder V2 编码器赋予模型因果推理能力,让 AI 按语义逻辑动态重排图像特征,而非物理位置扫描,在保持高压缩率的同时,实现识别准确率与阅读逻辑性的双重飞跃。作为聚焦 DeepSeek 生态的社区,我们带大家拆解这项技术的核心创新与实测表现。

一、论文核心信息

二、核心创新与贡献

  • 架构革新:设计 DeepEncoder V2 编码器,用 Qwen2-0.5B 小型语言模型架构替代传统 CLIP 视觉编码器,实现视觉特征语义级因果重排序;

  • 机制突破:引入可学习的因果流查询(Causal Flow Query),通过定制注意力掩码,结合视觉标记的双向感知与查询标记的单向因果推理;

  • 范式升级:提出 “双重级联因果推理”,编码器负责视觉逻辑排序,解码器专注内容生成,深化模型对二维空间结构的理解;

  • 性能领先:在 OmniDocBench v1.5 基准测试中,以更少视觉标记实现 91.09% 准确率,显著优于前代及同类竞品。

三、技术原理与架构设计

DeepSeek-OCR 2 延续 “编码器 + 解码器” 框架,核心创新集中在 DeepEncoder V2:

1. 核心模块组成

  • 视觉分词器:基于 8000 万参数 SAM-base 模型与卷积层,实现 16 倍降采样压缩,将图像转化为视觉标记(Visual Tokens),大幅降低计算量;

  • 类 LLM 视觉编码器:用 Qwen2-0.5B 语言模型架构替换 CLIP 模块,不仅提取特征,更能梳理特征逻辑顺序;

  • 因果流查询:在视觉标记序列后拼接可学习查询向量,通过前缀拼接方式,让查询向量基于视觉标记进行逻辑推理。

2. 混合注意力机制

注意力掩码由两部分组成,兼顾全局感知与逻辑排序:

  • 视觉标记区(左侧):采用双向注意力,每个视觉标记可感知全局图像信息,保留 ViT 的全局感受野;

  • 因果查询区(右侧):采用因果注意力(下三角掩码),第 i 个查询向量仅能关注前序查询向量与所有视觉标记,契合语言模型解码逻辑。

3. 级联因果推理流程

  1. 图像经视觉分词器生成视觉标记,与查询向量拼接;

  2. 编码器处理后,仅截取查询向量输出送入解码器;

  3. 编码器完成视觉逻辑排序,解码器负责文本生成,实现两级因果推理。

四、实验结果与性能表现

实验基于 OmniDocBench v1.5 数据集(1355 张文档页面,覆盖 9 大类场景),经 “编码器预训练→查询增强→解码器微调” 三阶段训练,核心结果如下:

1. 基准测试霸榜

  • 综合准确率达 91.09%,较前代提升 3.73%,视觉标记上限仅 1120(远低于同类模型的 6000+);

  • 阅读顺序(R-order)编辑距离从 0.085 降至 0.057,逻辑理解能力显著提升;

  • 与 Gemini-2.5 Pro、Qwen2.5-VL 等竞品相比,以更低资源开销实现更优性能。

2. 细分场景表现

  • 优势场景:学术论文、书籍、教材等结构化文档识别效果优异;

  • 待优化场景:报纸等文本密集、排版复杂的场景,因视觉标记上限限制导致信息丢失,编辑距离>0.13,可通过增加局部裁剪数量改进。

3. 生产环境验证

  • 在线用户日志图像处理:重复率从 6.25% 降至 4.17%,降幅 2.08%;

  • PDF 预训练数据清洗:重复率从 3.69% 降至 2.88%,降幅 0.81%;

  • 生成文本更通顺连贯,实用价值大幅提升。

五、技术评价与未来方向

1. 核心优势

  • 架构新颖:将 LLM 架构引入视觉编码,通过注意力掩码巧妙解决视觉特征逻辑排序问题;

  • 效率与性能兼顾:以极少视觉标记实现顶尖性能,大幅降低推理成本;

  • 通用性强:为统一多模态编码器发展提供可行路径,适配更多场景。

2. 现存不足

  • 高密度场景受限:文本极度密集的文档处理易出现信息丢失;

  • 数据依赖性较高:特定布局数据样本不足会影响表现;

  • 长序列推理有限:当前因果查询长度难以支撑复杂视觉任务的多跳推理。

DeepSeek-OCR 2 的发布,不仅为 OCR 任务提供了高效新架构,更为多模态大模型数据构建提供了强力工具。作为开源生态的重要创新,其技术思路与实践成果值得开发者深入研究。你对这项因果推理视觉编码技术有哪些应用设想?欢迎在评论区分享你的见解!

这个技术思路确实有意思

这个因果流查询机制真有意思,让模型能按语义逻辑重组视觉特征,比传统光栅扫描聪明多了。

这个因果流查询机制挺有意思的 用LLM架构做视觉编码确实能解决文档的逻辑顺序问题

这个因果流查询设计真巧妙

这技术确实挺实用的

这技术有点意思啊 让AI按逻辑看图而不是死板扫描 文档处理效率直接起飞了

这个技术思路挺有意思的