刚刚,DeepSeek 正式开源面向 OCR 场景的专用模型DeepSeek-OCR 2,配套技术报告也同步对外发布。这款模型是去年 DeepSeek-OCR 的升级版本,核心突破在于搭载了新型解码器,让模型的图文识别、文档读取逻辑更贴近人类阅读习惯,而非传统模型那种机械的扫描式识别。
此前的 OCR 模型多采用从左上到右下的地毯式扫描方式读取内容,而DeepSeek-OCR 2能够精准理解图文的结构逻辑,按照内容的自然结构分步完成读取。正是这种全新的视觉理解模式,让该模型对复杂布局的文本、数学公式以及各类表格的识别与理解能力实现了显著提升。
在文档理解基准测试OmniDocBench v1.5中,DeepSeek-OCR 2 斩获91.09% 的得分;在训练数据与编码器均未改动的前提下,相较初代 DeepSeek-OCR 实现了3.73% 的性能提升。这一成绩使其成为当前端到端 OCR 模型中的SOTA( state-of-the-art,当前最优),不过相较于百度PaddleOCR-VL OCR 管线的92.86% 得分,仍存在小幅差距。
同时,在相似视觉 token 预算下,DeepSeek-OCR 2 在文档解析方面的编辑距离(编辑为正确文本所需的工作量)低于Gemini-3 Pro,这证明其在确保优越性能的同时,还保持了视觉 token 的高压缩率。DeepSeek-OCR 2 兼具双重核心价值:既可作为新型 VLM(视觉语言模型)架构供探索性研究,也能作为生成高质量预训练数据的实用工具,服务于大语言模型的训练过程。
