DeepSeek 再推架构革新!开源 DeepSeek-OCR 2,视觉编码迈入 “语义推理” 新时代

国产开源大模型再添重磅更新!DeepSeek 正式发布 OCR 领域新版本 ——DeepSeek-OCR 2,通过全新 DeepEncoder V2 架构,实现视觉编码从 “固定扫描” 到 “语义推理” 的范式突破,在文档识别精度、Token 压缩效率上均大幅提升。作为聚焦 DeepSeek 生态的社区,我们第一时间拆解核心创新与实用价值,带大家直击这场技术升级。

一、核心突破:从 “机械扫描” 到 “理解式阅读”

DeepSeek-OCR 2 的核心革新在于编码器升级,彻底打破传统 OCR 的局限:

  • 架构升级:替换原有 CLIP 编码器为轻量级语言模型(Qwen2-500M),引入 “因果流查询” 机制,支持根据图像语义动态重排视觉 Token,不再受从左到右的栅格扫描约束;

  • 阅读逻辑优化:通过 “编码器重排 + 译码器解析” 的两级 1D 因果推理,精准还原带表格、公式、多栏布局的复杂文档阅读逻辑,贴合人类自然阅读习惯;

  • 效率优势:仅需 256-1120 个视觉 Token 即可覆盖复杂文档页面,显著降低下游 LLM 计算开销,在同类模型中处于极低水平。

二、性能实测:指标与实用双提升

新版本在权威评测与生产环境中均展现出亮眼表现:

  • 基准测试:在 OmniDocBench v1.5 评测中综合得分达 91.09%,较前代提升 3.73%,阅读顺序识别的逻辑性大幅增强;

  • 生产优化:在线用户日志场景中,识别重复率从 6.25% 降至 4.17%;PDF 批量处理场景中,重复率从 3.69% 降至 2.88%,实用性显著提升;

  • 对比优势:在相同 1120 视觉 Token 预算下,文档解析编辑距离优于 Gemini-3 Pro,兼顾压缩效率与识别精度。

三、技术细节:架构设计与训练逻辑

1. 核心架构

延续 “编码器 + 解码器” 框架,重点升级 DeepEncoder V2:

  • 视觉分词器:由 8000 万参数 SAM-base 与两层卷积层组成,输出维度优化为 896,适配后续流程;

  • 双流注意力机制:视觉 Token 采用双向注意力保障全局建模,因果流查询采用因果注意力实现语义排序,仅查询 Token 输出至解码器;

  • 解码器沿用:保持 30 亿参数 MoE 结构,推理时仅激活约 5 亿参数,平衡性能与效率。

2. 训练流程

分三阶段完成训练,保障模型效果:

  • 编码器预训练:让视觉分词器与 LLM 风格编码器掌握特征提取、Token 压缩与重排能力;

  • 查询增强:联合优化编码器与解码器,强化 Token 重排与视觉知识压缩;

  • 解码器专门化:冻结编码器,仅优化解码器,提升数据吞吐量。

四、应用价值与未来潜力

DeepSeek-OCR 2 的发布,不仅优化了现有 OCR 使用体验,更具备长远技术价值:

  • 核心应用:适配在线 OCR 服务与批量 PDF 处理场景,为 DeepSeek-LLM 提供高效图像 / 文档读取能力;

  • 未来方向:为全模态编码器构建提供可行路径,有望实现声音、视频等多模态数据的统一处理;

  • 改进空间:当前在文本密集型报纸类文档识别上仍有提升空间,可通过增加局部裁剪数量、扩充训练数据优化。

作为始终坚持开源的国产大模型代表,DeepSeek 此次更新再次展现了技术深耕的实力。DeepSeek-OCR 2 已开源模型与技术报告,欢迎开发者前往 Github 与 Hugging Face 获取资源,探索更多应用场景。你对这款新模型有哪些期待?欢迎在评论区分享你的使用计划与见解!

这个更新看起来挺实用的

这个升级确实挺实用的

视觉编码升级确实关键

OCR升级真不错

这个更新挺实用的

技术更新挺快的嘛

这个动态重排视觉Token的思路太巧妙了!终于不用被固定扫描顺序折磨了。不过报纸类文档还有优化空间,期待后续迭代。