DeepSeek又又又又发新论文了!这一次,他们重构了AI看图的方式

这次的论文主题是 DeepSeek-OCR 2,乍看之下,这只是个定位相当垂直的 OCR 模型。坦白说,刚看到标题时我确实觉得有些乏味 ——OCR?一个如此细分的领域,值得专门写篇论文深入探讨吗?

但读完通篇后,我却觉得这或许是他们今年最重要的技术突破之一。关键不在于 OCR 本身有多核心,而在于他们在这个 “小问题” 里,抛出了一个关于视觉语言模型(VLM)架构的关键洞察 —— 你看东西时,眼睛是怎么动的?

AI看图的方式,一直都错了。

你看报纸的方式,和AI完全不同

想象你拿起一份报纸。

大概率是这样:先扫一眼大标题,目光跳到配图,瞥一眼图片说明,再决定要不要细读正文;如果是多栏排版,你会跟着内容的 “重要性” 在各栏间跳跃,而非从左上角第一个字机械扫到右下角。

这算不上什么高深的认知科学结论,却是你我每天都在践行的阅读本能。

但 AI 向来不这么 “看图”。

传统视觉语言模型(VLM)处理图像的方式,更像一台刻板的复印机:从左到右、从上到下,逐行扫描,不放过任何一个像素。管它图像里的内容轻重缓急、主次分明,它都只用同一种机械顺序,把图像 “转译” 成一串冰冷的数字。

这个问题困扰行业多年,而 DeepSeek 偏偏在这篇看似 “小众” 的论文里,给出了一个格局不小的解答。

找准核心痛点后,DeepSeek 的解法顺理成章 —— 核心思路是把 “看图” 拆成两步,实现从 “机械扫描” 到 “语义推理” 的范式跃迁。

1967年的眼动实验

在讲DeepSeek的解法之前,我想先聊一个认知科学的经典实验。

1967年,苏联心理学家Alfred Yarbus做了一个著名的眼动追踪实验。他让不同的被试看同一幅画——列宾的《意外归来》,画的是一个流放者突然回到家中的场景。

有意思的是,Yarbus给每个被试不同的任务指令:

  • “估计这家人的经济状况”

  • “记住画中人物的位置”

  • “猜测这个人离开家多久了”

结果发现,同一幅画,不同任务下,被试的眼动轨迹完全不同。

让估计经济状况的人,眼睛会在家具、墙壁装饰之间跳跃。让猜测离开时间的人,眼睛会在归来者的脸和家人的表情之间反复扫视。

这说明什么?人类的视觉不是被动的接收,而是主动的搜索。我们的眼睛去哪里,取决于我们想知道什么,取决于我们之前已经看到了什么。

用论文里的话说,人类视觉是"因果性"的——每一次注视都依赖于之前获得的信息来决定下一步看哪里。

而传统AI没有这个能力。它只会机械地扫。

小径分岔的花园

博尔赫斯有一篇短篇小说,叫《小径分岔的花园》。

故事里有一座神秘的花园,主人公最终发现,这座花园其实是一部小说——一部在每个叙事节点都分叉出所有可能性的小说。在这部小说里,主人公可以同时选择所有的路径,每条路径都是真实的。

这个隐喻用来理解DeepSeek OCR 2的核心创新,挺合适。

传统VLM就像一个只会走直线的人穿越迷宫。从入口到出口,只有一条固定的路线:从左到右,从上到下。不管迷宫的结构如何,不管哪条路更近,它都只会沿着预设的方向走。

而人类看图——以及DeepSeek想让AI学会的方式——是站在每个岔路口,根据眼前的信息决定下一步往哪走。这条路看起来有标题?先走这边。那边有张图表?跳过去看看。

这就是论文标题里"Visual Causal Flow"(视觉因果流)的含义:让AI学会根据已经看到的内容,因果性地决定接下来看哪里。

一、DeepSeek的解法:两阶段级联推理

  1. 第一步:推理 “最优阅读顺序” 传统 VLM 会直接将图像 “拍平” 为一串视觉 token,顺序完全由空间位置决定;而 DeepSeek-OCR 2 新增的DeepEncoder V2 编码器,会先基于图像语义重新排列 token 顺序。它输出的 “因果流查询”(causal flow query),会按照模型判断的合理逻辑,依次 “聚焦” 图像的不同关键部分,而非固守左上到右下的固定路径。

  2. 第二步:基于正确顺序做语义生成 token 重排后,再将有序的视觉信息输入 LLM 完成文本生成(如 OCR 识别)。逻辑顺序对齐后,模型能自然理解文档结构 —— 比如先捕捉标题、再读取正文,而非先识别页脚页码,大幅提升语义连贯性。

二、关键技术设计:让编码器学会 “思考”

技术细节简化说明,核心亮点有二:

  • 双模式注意力 mask:输入被拆分为两部分 —— 视觉 token 采用双向注意力,确保全局信息感知;因果流查询采用因果注意力,每个查询仅能参考前序查询与所有视觉 token,天然形成 “顺序决策链”。两者结合,视觉 token 负责 “感知全局”,因果查询负责 “排序逻辑”,分工明确且高效。
  • LLM 替代传统视觉编码器:用参数 500M 的 Qwen2 小型 LLM,替换了传统 VLM 中的 CLIP ViT 架构。这让编码器不再局限于 “提取特征”,而是本身具备初步 “推理能力”,为语义排序提供核心支撑。

三、实测效果:高效且实用

  1. 基准测试突破:在 OmniDocBench v1.5 文档解析基准中,综合得分达91.09%,较前代提升 3.73%;更关键的 “阅读顺序” 指标(编辑距离)从 0.085 降至 0.057,证明模型确实掌握了符合人类逻辑的阅读顺序,而非单纯提升识别准确率。
  2. 生产环境优化:在 DeepSeek 在线 OCR 服务与预训练数据管线中,输出重复率从 6.25% 降至 4.17%,降幅达 33%,实用性显著提升。
  3. 极致高效:仅需 256-1120 个视觉 token 即可实现上述效果,而同类模型(如 Qwen2.5-VL-72B)需超过 6000 个 token,效率优势突出。

四、不止于 OCR:DeepSeek 的技术拼图

DeepSeek-OCR 2 并非孤立成果,2026 年 1 月的密集论文发布,实则是在铺垫更大的技术布局:

  • 1 月 1 日:mHC 论文提出 “流形约束超连接”,解决大模型训练稳定性问题(梁文锋署名);
  • 1 月 12 日:Engram 论文提出 “条件记忆” 机制,实现近无限上下文检索(梁文锋署名);
  • 1 月 27 日:OCR 2 论文提出 “视觉因果流”,重构 AI 图像理解逻辑。

这些技术均指向同一目标 —— 让大模型更高效、更稳定、更贴近人类认知。结合公开信息,它们大概率会整合进即将于 2 月中旬(春节前后)发布的 DeepSeek V4。GitHub 泄露的 “MODEL1” 代号显示,V4 可能迎来架构重构,涵盖混合精度训练、Blackwell GPU 优化,以及超 100 万 token 的上下文窗口,延续了 DeepSeek 近年春节前后发布重磅模型的传统。

五、小问题背后的大命题:AI 该如何 “理解” 视觉世界

OCR 2 表面解决的是 “文档文字识别” 这一细分问题,但核心触及了更宏大的命题:AI 该如何理解二维视觉信息?论文讨论部分明确了两个探索方向:

  • 迈向真正的 2D 推理:通过 “排序 + 推理” 两级 1D 因果推理,逼近对二维图像的深度理解;
  • 迈向原生多模态:既然 LLM 可作为视觉编码器,未来或能用同一架构统一处理图像、音频、文本,仅需替换模态专属查询 token。

六、期待原生多模态的 DeepSeek V4

此前 DeepSeek V3、R1 虽推理能力强劲(R1 甚至超越 o1),但均为纯文本模型 —— 处理图像时仅能识别文字再做文本推理,如同 “只能读字幕看电影”。而 OCR 2 的技术突破,标志着 DeepSeek 在多模态领域迈出关键一步:从 “识别视觉文字” 升级为 “理解视觉结构与语义”。

结合 GitHub 泄露的 “MODEL1” 中大量视觉编码器配置,以及论文明确的 “原生多模态” 方向,我们有充分理由期待,DeepSeek V4 将成为一款能力成熟的原生多模态模型 —— 真正学会 “看图”,而非仅仅 “读字”。

这些仍属开放探索,但从 DeepSeek 的技术布局与发布节奏来看,一场关于多模态大模型的革新,已箭在弦上。

deepseek 牛的

最后还是仿生做法好使啊

顶一波 DeepSeek

视觉因果流这思路确实妙

这个思路确实有点意思

这思路有意思 让AI学会看图顺序

这个思路挺有意思的

这个思路确实有点意思

深夜看到这个真有点意思啊,AI终于开始学人类怎么“看”东西了,不只是机械扫描。这种从认知角度切入的改进,感觉比单纯堆参数有意义多了。

这思路有点意思啊

这个思路确实有点意思

这个思路有点意思