这次的论文主题是 DeepSeek-OCR 2,乍看之下,这只是个定位相当垂直的 OCR 模型。坦白说,刚看到标题时我确实觉得有些乏味 ——OCR?一个如此细分的领域,值得专门写篇论文深入探讨吗?
但读完通篇后,我却觉得这或许是他们今年最重要的技术突破之一。关键不在于 OCR 本身有多核心,而在于他们在这个 “小问题” 里,抛出了一个关于视觉语言模型(VLM)架构的关键洞察 —— 你看东西时,眼睛是怎么动的?
AI看图的方式,一直都错了。
你看报纸的方式,和AI完全不同
想象你拿起一份报纸。
大概率是这样:先扫一眼大标题,目光跳到配图,瞥一眼图片说明,再决定要不要细读正文;如果是多栏排版,你会跟着内容的 “重要性” 在各栏间跳跃,而非从左上角第一个字机械扫到右下角。
这算不上什么高深的认知科学结论,却是你我每天都在践行的阅读本能。
但 AI 向来不这么 “看图”。
传统视觉语言模型(VLM)处理图像的方式,更像一台刻板的复印机:从左到右、从上到下,逐行扫描,不放过任何一个像素。管它图像里的内容轻重缓急、主次分明,它都只用同一种机械顺序,把图像 “转译” 成一串冰冷的数字。
这个问题困扰行业多年,而 DeepSeek 偏偏在这篇看似 “小众” 的论文里,给出了一个格局不小的解答。
找准核心痛点后,DeepSeek 的解法顺理成章 —— 核心思路是把 “看图” 拆成两步,实现从 “机械扫描” 到 “语义推理” 的范式跃迁。
1967年的眼动实验
在讲DeepSeek的解法之前,我想先聊一个认知科学的经典实验。
1967年,苏联心理学家Alfred Yarbus做了一个著名的眼动追踪实验。他让不同的被试看同一幅画——列宾的《意外归来》,画的是一个流放者突然回到家中的场景。
有意思的是,Yarbus给每个被试不同的任务指令:
-
“估计这家人的经济状况”
-
“记住画中人物的位置”
-
“猜测这个人离开家多久了”
结果发现,同一幅画,不同任务下,被试的眼动轨迹完全不同。
让估计经济状况的人,眼睛会在家具、墙壁装饰之间跳跃。让猜测离开时间的人,眼睛会在归来者的脸和家人的表情之间反复扫视。
这说明什么?人类的视觉不是被动的接收,而是主动的搜索。我们的眼睛去哪里,取决于我们想知道什么,取决于我们之前已经看到了什么。
用论文里的话说,人类视觉是"因果性"的——每一次注视都依赖于之前获得的信息来决定下一步看哪里。
而传统AI没有这个能力。它只会机械地扫。
小径分岔的花园
博尔赫斯有一篇短篇小说,叫《小径分岔的花园》。
故事里有一座神秘的花园,主人公最终发现,这座花园其实是一部小说——一部在每个叙事节点都分叉出所有可能性的小说。在这部小说里,主人公可以同时选择所有的路径,每条路径都是真实的。
这个隐喻用来理解DeepSeek OCR 2的核心创新,挺合适。
传统VLM就像一个只会走直线的人穿越迷宫。从入口到出口,只有一条固定的路线:从左到右,从上到下。不管迷宫的结构如何,不管哪条路更近,它都只会沿着预设的方向走。
而人类看图——以及DeepSeek想让AI学会的方式——是站在每个岔路口,根据眼前的信息决定下一步往哪走。这条路看起来有标题?先走这边。那边有张图表?跳过去看看。
这就是论文标题里"Visual Causal Flow"(视觉因果流)的含义:让AI学会根据已经看到的内容,因果性地决定接下来看哪里。
一、DeepSeek的解法:两阶段级联推理
-
第一步:推理 “最优阅读顺序” 传统 VLM 会直接将图像 “拍平” 为一串视觉 token,顺序完全由空间位置决定;而 DeepSeek-OCR 2 新增的DeepEncoder V2 编码器,会先基于图像语义重新排列 token 顺序。它输出的 “因果流查询”(causal flow query),会按照模型判断的合理逻辑,依次 “聚焦” 图像的不同关键部分,而非固守左上到右下的固定路径。
-
第二步:基于正确顺序做语义生成 token 重排后,再将有序的视觉信息输入 LLM 完成文本生成(如 OCR 识别)。逻辑顺序对齐后,模型能自然理解文档结构 —— 比如先捕捉标题、再读取正文,而非先识别页脚页码,大幅提升语义连贯性。
二、关键技术设计:让编码器学会 “思考”
技术细节简化说明,核心亮点有二:
- 双模式注意力 mask:输入被拆分为两部分 —— 视觉 token 采用双向注意力,确保全局信息感知;因果流查询采用因果注意力,每个查询仅能参考前序查询与所有视觉 token,天然形成 “顺序决策链”。两者结合,视觉 token 负责 “感知全局”,因果查询负责 “排序逻辑”,分工明确且高效。
- LLM 替代传统视觉编码器:用参数 500M 的 Qwen2 小型 LLM,替换了传统 VLM 中的 CLIP ViT 架构。这让编码器不再局限于 “提取特征”,而是本身具备初步 “推理能力”,为语义排序提供核心支撑。
三、实测效果:高效且实用
- 基准测试突破:在 OmniDocBench v1.5 文档解析基准中,综合得分达91.09%,较前代提升 3.73%;更关键的 “阅读顺序” 指标(编辑距离)从 0.085 降至 0.057,证明模型确实掌握了符合人类逻辑的阅读顺序,而非单纯提升识别准确率。
- 生产环境优化:在 DeepSeek 在线 OCR 服务与预训练数据管线中,输出重复率从 6.25% 降至 4.17%,降幅达 33%,实用性显著提升。
- 极致高效:仅需 256-1120 个视觉 token 即可实现上述效果,而同类模型(如 Qwen2.5-VL-72B)需超过 6000 个 token,效率优势突出。
四、不止于 OCR:DeepSeek 的技术拼图
DeepSeek-OCR 2 并非孤立成果,2026 年 1 月的密集论文发布,实则是在铺垫更大的技术布局:
- 1 月 1 日:mHC 论文提出 “流形约束超连接”,解决大模型训练稳定性问题(梁文锋署名);
- 1 月 12 日:Engram 论文提出 “条件记忆” 机制,实现近无限上下文检索(梁文锋署名);
- 1 月 27 日:OCR 2 论文提出 “视觉因果流”,重构 AI 图像理解逻辑。
这些技术均指向同一目标 —— 让大模型更高效、更稳定、更贴近人类认知。结合公开信息,它们大概率会整合进即将于 2 月中旬(春节前后)发布的 DeepSeek V4。GitHub 泄露的 “MODEL1” 代号显示,V4 可能迎来架构重构,涵盖混合精度训练、Blackwell GPU 优化,以及超 100 万 token 的上下文窗口,延续了 DeepSeek 近年春节前后发布重磅模型的传统。
五、小问题背后的大命题:AI 该如何 “理解” 视觉世界
OCR 2 表面解决的是 “文档文字识别” 这一细分问题,但核心触及了更宏大的命题:AI 该如何理解二维视觉信息?论文讨论部分明确了两个探索方向:
- 迈向真正的 2D 推理:通过 “排序 + 推理” 两级 1D 因果推理,逼近对二维图像的深度理解;
- 迈向原生多模态:既然 LLM 可作为视觉编码器,未来或能用同一架构统一处理图像、音频、文本,仅需替换模态专属查询 token。
六、期待原生多模态的 DeepSeek V4
此前 DeepSeek V3、R1 虽推理能力强劲(R1 甚至超越 o1),但均为纯文本模型 —— 处理图像时仅能识别文字再做文本推理,如同 “只能读字幕看电影”。而 OCR 2 的技术突破,标志着 DeepSeek 在多模态领域迈出关键一步:从 “识别视觉文字” 升级为 “理解视觉结构与语义”。
结合 GitHub 泄露的 “MODEL1” 中大量视觉编码器配置,以及论文明确的 “原生多模态” 方向,我们有充分理由期待,DeepSeek V4 将成为一款能力成熟的原生多模态模型 —— 真正学会 “看图”,而非仅仅 “读字”。
这些仍属开放探索,但从 DeepSeek 的技术布局与发布节奏来看,一场关于多模态大模型的革新,已箭在弦上。





