DeepSeek团队于2025年10月20日正式开源DeepSeek-OCR(全称:DeepSeek-OCR: Contexts Optical Compression),这是一个革命性的视觉-语言模型,首次系统验证了“用视觉token压缩文本上下文”的新范式。该模型不仅仅是高性能OCR工具,更是为大模型长上下文处理、记忆机制和多模态训练开辟了全新思路。
官方资源:
- GitHub仓库:https://github.com/deepseek-ai/DeepSeek-OCR
- Hugging Face模型页:https://huggingface.co/deepseek-ai/DeepSeek-OCR
- arXiv论文:https://arxiv.org/abs/2510.18234(标题:DeepSeek-OCR: Contexts Optical Compression)
- 国内镜像:ModelScope搜索“DeepSeek-OCR”或HF镜像站(hf-mirror.com)
核心技术亮点(强烈推荐关注)
- 光学上下文压缩(Optical Context Compression)新范式 传统长上下文依赖文本token(稀疏、低密度),DeepSeek-OCR创新地将文本渲染成2D图像,通过视觉编码器压缩成少量高密度视觉token。
- 每个视觉token承载更丰富信息,相当于“一张图压千字”。
- 定量验证:视觉token可高效替代文本token,为LLM外部记忆/缓存机制提供新路径(类似“光学遗忘”机制)。
- 惊人压缩比与准确率平衡
- 10倍压缩:OCR准确率保持**~97%**(几乎无损)。
- 20倍压缩:准确率仍达**~60%**(仍可用)。
- 示例:1000字文档压缩至~100个视觉token,极大降低上下文长度压力。 这在长文档处理、多轮对话记忆、历史上下文缓存场景中潜力巨大。
- 模型架构设计
- 双组件结构:
- DeepEncoder:专用视觉编码器,负责将图像(渲染文本)压缩成视觉token。
- 解码器:基于DeepSeek-3B-MoE-A570M(约3B参数稀疏MoE,轻量高效)。
- 支持端到端OCR,擅长复杂场景:文档布局理解、表格提取、公式识别、图表解析、多语言(近100种)。
- 实际性能与应用价值
- 单卡A100-40G即可高效运行,日处理能力可达3300万页文档。
- 超出传统OCR:可作为LLM的“视觉记忆模块”,将旧对话压缩成图像后重新输入,实现更高效长上下文。
- 为多模态训练提供新思路:视觉模态可能比纯文本更高效压缩信息。
- 开源友好度高
- 完整开源权重+代码,支持vLLM加速推理。
- 已集成上游vLLM(2025/10/23起),社区已有GGUF量化版、Rust实现等衍生项目。
为什么值得重点关注?
- 范式创新:首次从LLM视角重新审视视觉编码器作用,挑战“文本token为主”的传统认知,可能影响未来长上下文扩展方案(如无限上下文、记忆增强)。
- 实用性强:对文档AI、RAG系统、聊天机器人历史记忆优化有直接提升。
- 中国开源力量代表:DeepSeek继续以高性价比(低硬件需求、高性能)冲击国际前沿。