DeepSeek多模态VL2技术亮点:视觉+语言双突破
DeepSeek-VL2 是 DeepSeek 于 2024 年底发布的开源 Mixture-of-Experts (MoE) 视觉语言模型 系列,显著升级前代 DeepSeek-VL。通过两大核心创新——视觉端的动态切片策略和语言端的 MoE + MLA 架构——实现视觉高分辨率处理与语言高效推理的双突破,在激活参数更少的情况下达到或超越开源/闭源SOTA水平(例如 OCRBench 834 分,超 GPT-4o 的 736 分)。
模型系列包括三个变体(激活参数):
- DeepSeek-VL2-Tiny:1.0B 激活参数
- DeepSeek-VL2-Small:2.8B 激活参数
- DeepSeek-VL2:4.5B 激活参数(总参数远高于此,因 MoE 稀疏)
支持序列长度 4096,支持多图像对话、视觉定位等。
1. 视觉突破:动态切片(Dynamic Tiling)策略
痛点解决
传统 VLM 在处理高分辨率或非方形图像时,常需 resize 或 padding,导致细节丢失或效率低下。DeepSeek-VL2 引入动态高分辨率视觉编码,灵活处理任意纵横比图像。
核心原理
- 切片机制:图像动态分割为多个 384×384 的 local tiles + 一个 global thumbnail(全局缩略图)。
- 分辨率选择:从候选集 ( C_R = {(m \cdot 384, n \cdot 384) \mid m, n \in \mathbb{N}, mn \leq 9} ) 中选 padding 最少的方案。
- 编码器:共享 SigLIP-SO400M-384 视觉编码器处理所有 tiles 和 thumbnail,每个 tile 生成 729 个视觉 embedding(经 2×2 pixel shuffle 压缩至 196 tokens)。
- 整合:使用特殊 token(如 <tile_newline>、<view_separator>)组织多 tile 序列,通过两层 MLP 投影到语言模型 embedding 空间。
优势与效果
- 支持任意比例高分辨率图像,无显著信息损失。
- 显著提升 OCR、文档/表格/图表理解、视觉定位(visual grounding)等任务。
- 支持 ≤2 张图像时动态 tiling,≥3 张时 padding 到 384×384 以控制上下文长度。
这一创新让模型在真实世界场景(如复杂文档、图表、多物体图像)中表现更强。
2. 语言突破:DeepSeekMoE + MLA 高效架构
痛点解决
多模态模型推理时 KV cache 占用大、吞吐低。DeepSeek-VL2 继承 V3 的 MoE + MLA,直接应用于视觉语言领域。
核心原理
- MoE 稀疏激活:每层多个专家(64-72 个 routed experts + 2 shared),Top-K=6 路由,仅激活少量专家。负载均衡通过 softmax/sigmoid routing + global bias。
- MLA(Multi-head Latent Attention):将 KV cache 压缩为低维 latent vectors,大幅降低内存占用,提升推理吞吐。
- 高效推理:支持 incremental prefilling,Small 版可在 40GB GPU 上运行,Tiny 版仅需 10GB。
优势与效果
- 计算效率高:激活参数少,但总容量大,训练/推理成本低。
- 高吞吐:MLA 压缩带来更长上下文支持和更快速度。
- 与视觉完美协同:视觉 token 高效融入 MoE 语言模型。
这一设计让 DeepSeek-VL2 在同等激活参数下性能碾压密集模型。
其他关键提升
- 数据与训练:三阶段管道(alignment → pretraining 800B tokens → SFT),数据集覆盖高质量 caption、OCR、VQA、grounding、表格/图表等,支持中英文。
- 独特能力:
- 视觉定位(Grounding):使用特殊 token(如 <|ref|>、<|det|>)输出 bounding box 坐标。
- 多图像推理:同时处理多张图像,生成连贯叙述或故事。
- 创意任务:基于多图编写故事、理解 meme/动漫/名人等。
基准成绩亮点(部分对比)
- OCRBench:Small 834(SOTA,开源最高,超 GPT-4o 736)
- DocVQA:93.3%(文档视觉问答领先)
- 视觉定位(RefCOCO series):Small 在多个子集达 93.9%+,开源 SOTA
- 综合:MMStar、MMMU、MathVista、AI2D 等超 InternVL2 / Qwen2-VL 同规模模型
| 任务基准 | DeepSeek-VL2-Small | 对比模型示例 |
|---|---|---|
| OCRBench | 834 | GPT-4o: 736 / Qwen2-VL-7B: ~800 |
| MMMU | 48.0 | InternVL2-2B: 36.3 |
| MathVista | 60.7 | Qwen2-VL-7B: 58.2 |
| RefCOCO val | 93.9 | InternVL2-8B: 87.1 |
总结:视觉+语言协同新高度
DeepSeek-VL2 通过动态 tiling 突破视觉高分辨率瓶颈,通过MoE + MLA 实现语言高效计算,二者协同让模型在 OCR、文档理解、视觉定位、多图像推理等真实场景大放异彩。以极低激活参数实现 GPT-4o 级性能,进一步推动开源多模态 AI 民主化,堪称 2025 年多模态领域的里程碑之作!