0.9B 参数登顶全球!百度 PaddleOCR-VL-1.5 开源,首创异形框定位破解歪扭文档痛点!

OCR 领域迎来重量级突破!百度正式开源 PaddleOCR-VL-1.5 模型,凭借全球首创的 “异形框定位” 技术,以仅 0.9B 的轻量参数,在权威榜单 OmniDocBench v1.5 上斩获 94.5% 的准确率,碾压 Gemini-3-Pro、DeepSeek-OCR2 等顶尖模型,登顶全球第一。

如果说 DeepSeek-OCR2 的核心优势是 “用 LLM 理解文档逻辑”,那么 PaddleOCR-VL-1.5 则专攻 “视觉鲁棒性”,彻底解决了现实中歪扭、弯折、反光等复杂文档的识别难题,让 OCR 技术从 “适应理想环境” 转向 “适配真实场景”,为合同处理、档案数字化、财报解析等核心场景提供了高效解决方案。

一、核心突破:异形框定位,歪扭文档也能精准识别

传统 OCR 因依赖矩形定位框,面对手机拍摄的梯形合同、折叠有折痕的报销单、屏幕反光的财报等场景时,常出现信息遗漏、识别错误。PaddleOCR-VL-1.5 的 “异形框定位” 技术,从根源上解决了这一痛点:

  • 具备 “空间想象力”:能先理解文档的物理形变(弯曲、倾斜、波浪形),再从形变空间中提取文字逻辑,而非用固定矩形框生硬套取;

  • 全场景适配:在扫描件、弯曲页、倾斜文档、屏摄画面、光照变化五大真实场景中,识别准确率全面超越主流开源与闭源模型;

  • 实用价值拉满:无论是折叠的票据、倾斜的古籍,还是跨页被裁的表格,都能精准捕捉完整信息,无需人工预处理。

二、四大核心特性:轻量参数 + 全能表现

1. 0.9B 参数的极致性价比

打破 “参数越大性能越强” 的固有认知,PaddleOCR-VL-1.5 以仅 0.9B 的轻量级架构,实现了超越千亿参数模型的文档解析能力。无需高额算力支持,普通设备也能快速部署,大幅降低开发者使用门槛。

2. 多元素识别能力全面增强

针对实际应用场景痛点,模型强化了多类关键元素的识别能力:

  • 特殊符号与格式:精准识别下划线、复选框、复杂公式,适配办公文档高频需求;

  • 小众场景优化:优化生僻字、古籍文字识别,支持 109 种语言(新增藏文、孟加拉文),适配数字化存档等专业场景;

刚需功能补充:新增印章识别,完美匹配合同、发票等商务场景的核心需求。

3. 长文档跨页解析无压力

解决长文档处理中的碎片化问题,支持跨页表格自动合并、跨页段落标题识别,让财报、书籍等长文档解析后保持结构完整,减少后续人工整理工作量,大幅提升办公与科研效率。

4. 零门槛部署 + 免费额度福利

开发者无需复杂配置,即可快速上手使用:

  • 在线体验:直接通过官方地址(https://aistudio.baidu.com/paddleocr)在线测试,无需本地部署;

  • API 调用:登录即送 100 万 Token 免费额度,可直接集成到产品或脚本中;

  • 代码示例:提供完整 Python 调用代码,支持 PDF、图片格式,快速实现文档解析与结果导出(Markdown 文本 + 图片保存)。

三、六大真实场景落地:覆盖多行业需求

PaddleOCR-VL-1.5 的强鲁棒性使其在多行业场景中表现亮眼:

  1. 纸质文件还原:手机拍摄的合同、简历,自动矫正形变并提取文字;

  2. 图表版面解析:科研论文、财报中的图表与文字分离识别,保留原始布局;

  3. 复杂公式提取:数学、物理论文中的公式精准识别,支持导出复用;

  4. 手写笔记扫描:手写字体、涂鸦笔记清晰识别,适配学习与办公场景;

  5. 医疗处方识别:医院处方的手写文字、药品名称精准提取,助力医疗数字化;

  6. 古籍文献研究:古籍中的生僻字、异体字识别,支持传统文化数字化存档。

四、开源资源直达

PaddleOCR-VL-1.5 的开源,不仅推动 OCR 技术从 “文字识别” 向 “文档智能” 跨越,更以轻量、高效、易用的特性,让中小团队与个人开发者能低成本享受顶尖 OCR 能力。无论是商务办公、科研学术还是传统文化保护,这款模型都能成为高效帮手。

这个异形框定位确实解决了实际痛点

这个技术确实挺实用的

这个技术挺实用的

这技术确实有点东西

哇这个异形框定位好厉害

这个技术挺实用的

这个技术挺实用的