DeepSeek 始终秉持原创研发理念,总能为行业带来全新的启发与思路。昨日,DeepSeek 正式发布升级后的OCR2 模型,此次升级的核心优化,是加入了模拟人类视觉的因果推理机制,同时将原有的CLIP 模型替换为大模型架构。
旗下两代 OCR 模型均完成了关键的技术验证,实现了阶段性突破:DeepSeek-OCR1(2025 年 10 月发布),率先证明视觉压缩是解决大语言模型(LLM)长上下文低效问题的可行且高效路径,真正落地了 “一图胜万言”的技术效果。实验数据显示,将 10 个文本 token 压缩为 1 个视觉 token 时,OCR 精度仍可稳定达到97%。
DeepSeek-OCR2(2026 年 1 月 27 日发布),则进一步证实视觉语言模型能够通过因果流和动态语义阅读顺序,实现人类级别的文档逻辑理解,进而大幅超越传统固定栅格扫描的技术局限,完成能力的迭代升级。
DeepSeek-OCR2实现架构级颠覆性革新,彻底抛弃 CLIP 等传统 ViT 骨干,转而采用Qwen2-0.5B为核心,搭建全新DeepEncoder V2 视觉编码器。模型同步引入Visual Causal Flow(视觉因果流)机制,先完成全局图像布局理解,再依据语义内容动态决策阅读顺序,复刻人类读报时跳过广告、优先读取标题 / 正文 / 表格的逻辑,彻底突破传统模型固定栅格扫描的僵化局限。
如图所示,内容清晰展现了 DeepSeek-OCR 2 的核心架构创新,通过两代编码器的对比,凸显其技术突破:
DeepEncoder(初代架构) 采用 CLIP ViT 作为视觉编码器,属于传统的 ** 非因果(Non-causal)** 架构。该架构下,视觉 Token 之间为全向交互,且信息处理遵循固定顺序,普遍采用从左到右、从上到下的光栅扫描模式,缺乏灵活的逻辑处理能力。
DeepEncoder V2(升级架构) 彻底摒弃 CLIP 架构,改用LLM 风格的 Qwen2-500M 模型搭建,开创 **“LM as Vision Encoder”的全新技术路径。这一升级最关键的价值,是为视觉编码环节正式引入了因果推理能力 **,从底层打破了传统架构的固有局限,为后续动态语义理解、智能视觉处理奠定了基础。
传统视觉模型的查询 Query,普遍采用双向注意力机制,呈现出 Non-causal(非因果) 的特性:Query A 与 Query B 之间可以相互感知、双向交互,不存在信息获取的先后限制。
而DeepSeek-OCR 2在保留 Query 机制的基础上,做出了颠覆性调整 —— 将其强制改造为 Causal(因果 / 单向注意力) 机制,核心规则为:Query 2 仅能获取 Query 1 的信息,Query 3 仅能获取 Query 1 与 Query 2 的信息,后续每一个 Query,都只能感知其之前所有 Query 的输出结果。
这一设计的核心目的,是精准模拟人类阅读复杂文档的认知逻辑。人类在研读报纸、表格、几何图形等复杂排版内容时,视线的移动与信息的获取,由语义逻辑主导,而非单纯由坐标位置驱动。其本质是打破 “位置决定阅读顺序” 的传统桎梏,实现 “语义决定阅读顺序” 的智能模式 —— 下一步关注的内容,完全由上一步已获取的信息决定。
借助因果注意力的约束,模型被迫建立起渐进式信息整理的能力:Query 1 先定位并提取文档中的第一段核心文本,Query 2 则基于 Query 1 输出的语义结果,去寻找逻辑上承接的第二段内容(即便该内容在图像的左下角,与第一段存在位置上的跳跃),后续 Query 依循此语义逻辑持续推演,最终实现对复杂文档的结构化、逻辑性理解。
整个模型清晰地划分为三个串联的部分:视觉分词器 - 左侧、DeepEncoder V2 (视觉编码器) - 中间、DeepSeek-MoE Decoder (解码器) - 右侧。
- 在编码器中,通过 DeepEncoder V2,将无序的 2D 图像特征,转化为有序的、符合人类阅读逻辑的 1D 序列。
- 在解码器中,解码器不再需要处理复杂的视觉位置关系,只需根据已经排好序的语义信息,通过语言模型生成文本。
DeepEncoder V2 注意力矩阵被拼接成了左右两部分,分别对应不同的 Token 处理方式:
左侧/上半部分是视觉 Token,所有的视觉 Token 之间可以互相“看见”。也就是图像特征保留了传统的 ViT 风格,具备全局感受野,不会因为位置先后而丢失上下文信息。同时右侧/下半部分的因果流查询强制模型必须按照生成的先后顺序来建立逻辑依赖。
实验结果也证明DeepSeek-OCR 2 在使用极少视觉 Token(计算成本低)的情况下,依然取得了超越现有开源模型甚至商业闭源模型(如 GPT-4o)的 SOTA性能。
DeepSeek-OCR 2 的架构不仅是 OCR 技术的革新,更是迈向“通用模态编码器”的里程碑。在这一架构下,我们可以预见一个“参数共享”的超级引擎——共享Wk,Wv映射和 FFN 层。处理图像、音频或文本时,唯一的变量是特定模态的Learnable Query。这种设计将不同模态的特征提取与逻辑压缩统一在同一个参数空间内,彻底打破模态间的壁垒。
论文:deepseek-ai/DeepSeek-OCR-2 · Hugging Face
同时元旦期间,DeepSeek提出的mHC新思路震撼了全网AI社区。
我们先来回归一下何凯明团队提出的ResNet残差网络结构。
核心问题它解决了什么?
- 深度退化问题:以前人们以为“网络越深越好”,但实验发现,当层数增加到一定程度(如超过 20-30 层),即使加更多卷积层,训练误差和测试误差反而上升(不是过拟合,而是网络自己学不会恒等映射)。
关键创新:残差连接(Residual Connection / Skip Connection)
如果 F(x) 学到 0,整体就相当于恒等映射(output = x),网络至少不会变差。这让网络可以轻松学会“什么都不变”或者“再加点改进”。
过去十年间,残差连接所秉持的 “只需堆叠更多网络层” 的核心策略,虽成功破解了深度退化难题,但其设计逻辑 ——强制让每一层保留对原始输入的直接访问权限,却也隐含地限制了网络对信息的灵活转换能力。
而 DeepSeek 的核心贡献,正是提出了一套重写神经网络底层设计的全新方案,实现了从 “被动规避问题” 到 “主动优化架构” 的跨越:→ 其一,跳出残差连接中简单的加法运算框架,转向定义在流形空间上的几何约束,为网络学习提供更精准的结构引导;→ 其二,通过 mHC 机制 精准调控超连接的表现力,既避免其过度冗余,又恢复了残差连接的核心稳定性,最终实现 “高性能与高可靠” 的两者兼得;→ 更重要的是,DeepSeek 用技术实践证明:完全可以构建出深度稳定的神经网络,不再依赖自 2015 年 ResNet 问世以来,行业长期依赖的残差连接这一 “安全网”。
ResNet、HC、mHC对比:
-
普通Transformer的残差连接是“单车道”(F(x) + x):每层输出 = 输入 + 处理后的部分,信号强度基本保持在1倍左右,训练很稳定。
-
字节跳动先提出的Hyper-Connections(HC)想把残差变成“多车道”:一层里同时走好几条并行路径(比如3-4条),每条路径都加回输入,这样可以大幅增加模型深度和容量,理论上性能更好、训练更高效。
-
但问题来了:无约束的多车道残差会让信号强度指数级爆炸(实验里放大上万倍),梯度也失控,模型直接训崩,尤其在大模型、深层网络里特别严重。
mHC就是在HC的基础上加了一个流形约束(用Sinkhorn-Knopp算法强制每条路径的权重归一化),确保所有路径加起来的信号强度严格稳定在≈1.0倍,几乎不损失性能,开销也很小(~7%)。
具体解释如下:
第一步:压缩
mHC的做法是一开始先复制四份X1(语义更丰富,有的可能专门代表了语法、有的代表了上下文等等),然后继续往右侧走,如果通过注意力机制直接计算四次开销会很大,所以要使用一个可学习的向量 Hpre(1×n)将那 4 个向量合并成 1 个向量。这实际上是一个加权求和(Weighted Sum)。比如:0.9×A+0.1×B+…。
第二步:加工
将压缩后的这 1 个向量送入标准的 Transformer 层(F)进行计算(如 Attention 或 Feed-Forward)。这是整个网络中最耗时的“思考”过程。
mHC 的约束就是 DeepSeek 解决崩溃问题的关键(区别与HC)。DeepSeek 强制要求这个混合矩阵 Hres 必须是双随机矩阵。
- **规则:**每一行加起来必须等于 1,每一列加起来也必须等于 1。
- 作用:这保证了无论信息怎么在 4 个通道间“倒来倒去”,总能量(信号强度)保持不变,防止了数值爆炸或消失。
第三步:扩张
计算完成后,得到 1 个新的输出向量。此时使用另一个向量 Hpost(1×n)将其“广播”回 4 个通道。
注意:这不是简单的复制,而是根据权重将新知识以不同比例分配给 4 个通道,从而产生差异化(最终向量就包含了语法、上下文、逻辑、领域知识等等更多的语义信息)。
最后,将“计算路径”产生的新知识,加到“残差路径”混合后的旧记忆上,形成下一层的输入。
DeepSeek 证明了,只要辅以恰当的数学约束(如流形约束),我们可以驯服更复杂的非线性拓扑,从而获得更大的信息容量。










