当全网都在等待 DeepSeek V4 正式发布时,DeepSeek 联合北京大学、清华大学悄悄抛出了一枚技术重磅 —— 在 ArXiv 发布全新推理框架 DualPath。这款被视作 V4 核心基础设施的系统,专为智能体长文本推理场景设计,通过盘活解码引擎闲置的存储网卡带宽,彻底打破预填充 - 解码(PD)分离架构的 I/O 瓶颈,实现离线推理吞吐量 1.87 倍、在线服务吞吐量 1.96 倍的跨越式提升,为智能体大规模落地扫清了关键障碍。
核心痛点:智能体时代的 I/O 困境,计算免费但数据搬运昂贵
智能体的多轮互动特性,让大模型推理面临全新挑战:
-
负载特征剧变:对话轮次多、上下文累积快,呈现「长上下文(可达 30k tokens)、短追加(仅 300 tokens)」特征,KV-Cache 命中率高达 95% 以上,推理瓶颈从「计算」转向「数据搬运」;
-
资源严重错配:传统 PD 分离架构中,所有 KV-Cache 加载任务都拥挤在预填充引擎(PE)的存储网卡上,导致带宽饱和,而解码引擎(DE)的存储网卡却长期闲置,形成「忙的忙死、闲的闲死」的局面;
-
算力带宽失衡:GPU 算力增长速度远超网络带宽与 HBM 容量提升,进一步放大了 I/O 限制,正如英伟达首席科学家 Bill Dally 所言:「计算是免费的,但数据移动是昂贵的」。
核心创新:双路径加载,让闲置网卡焕发新生
DualPath 的核心洞见颠覆传统认知 ——KV-Cache 的加载不必以预填充引擎为中心。它通过新增一条加载路径,将解码引擎的闲置带宽纳入全局资源池,从根本上解决负载不平衡问题。
双路径 KV-Cache 加载机制
DualPath 构建两条并行加载路径,动态分配负载:
-
路径 A(传统路径):存储→预填充引擎(PE),KV-Cache 直接读入 PE 缓冲区,按层传输至 GPU HBM 用于计算,计算完成后全量传回解码引擎(DE)缓冲区;
-
路径 B(创新路径):存储→解码引擎(DE)→预填充引擎(PE),KV-Cache 先加载到 DE 缓冲区,再通过高带宽 RDMA 计算网络无损传输至 PE,充分利用 DE 闲置的存储网卡带宽。
两条路径并非简单并行,而是通过全局调度实现「带宽池化」—— 将集群中所有引擎的存储网卡资源整合为统一资源池,彻底打破单节点 I/O 限制,让原本闲置的 400Gbps/node 带宽与预填充侧 8×400Gbps/node 带宽协同工作,实现带宽利用率最大化。
关键技术:流量隔离 + 智能调度,确保加速不添乱
新增路径可能导致流量冲突,DualPath 通过两项核心技术化解风险:
-
以计算网卡(CNIC)为中心的流量管理:
强制所有 GPU 相关流量(含内存拷贝、引擎间传输)通过配对 CNIC 走 GPUDirect RDMA 路径;
在 InfiniBand 或 RoCE 网络中,利用虚拟层(VL/TC)技术将推理通信设为最高优先级,预留 99% 带宽,KV-Cache 搬运仅占用闲置带宽,确保不干扰延迟敏感型推理任务。
-
自适应请求调度器:
实时监控各节点的磁盘队列长度、Token 数量与计算负载,动态选择最优加载路径;
优先将任务分配给 I/O 压力小、计算负载轻的节点,避免单侧网卡或单点资源拥塞,减少 GPU 执行中的闲置时间(气泡)。
系统架构:三层组件协同,实现无瓶颈推理
DualPath 建立在 PD 解耦与 Layerwise Prefill 两项成熟技术之上,由三大核心组件构成闭环:
-
推理引擎(Inference Engines):每个引擎管理一块 GPU,严格区分为预填充引擎(PE,负责 prompt 处理)与解码引擎(DE,负责 token 生成),均配置 DRAM 缓冲区用于 KV-Cache 临时存储;
-
流量管理器(Traffic Manager):嵌入每个引擎,负责主机与设备间内存拷贝(H2D/D2H)、引擎间 KV-Cache 传输、存储网卡读写,核心作用是隔离推理流量与数据加载流量;
-
中央调度器(Request Scheduler):系统「大脑」,实时决策每条请求的最优加载路径,动态平衡计算与网络负载,最大化全局带宽利用率。
此外,DualPath 采用「完整块 + 层级块」混合数据布局:与存储交互时用完整块(含所有层信息)保证传输效率,引擎间传输时用层级块(单一层信息)适配计算流程,兼顾效率与兼容性。
性能实测:吞吐量翻倍,延迟稳如泰山
研究团队在包含 1152 个 GPU 的大规模生产集群上,基于 DS 660B(MoE + 稀疏注意力)、DS 27B、Qwen 32B 三款模型实测,验证了 DualPath 的强悍性能:
-
离线推理(模拟 RL rollout 场景):随着 Agent 批量规模增大和上下文长度延长,DualPath 优势愈发明显。在 DS 660B 模型上,相比传统架构最高实现 1.87 倍加速,性能接近理论最优的 Oracle 方案,KV-Cache I/O 开销基本消除;
-
在线服务(模拟真实生产环境):设定首字延迟(TTFT)≤4 秒、Token 间延迟(TPOT)≤50 毫秒的 SLO 目标,DualPath 将系统可承载的请求到达率上限大幅提升 ——DS 27B 提升 1.67 倍,DS 660B 提升 2.25 倍,且高负载下 TTFT 大幅优化,TPOT 几乎不受干扰;
-
兼容性优异:在稠密模型(Qwen 32B)与稀疏模型(DS 660B)上均表现稳定,证明方案具备广泛适配性。
技术团队:顶尖阵容护航,剧透 V4 核心方向
论文第一作者为北京大学博士生吴永彤,师从金鑫教授,其研究方向聚焦大模型推理系统工程优化,目前在 DeepSeek 系统组参与下一代模型基础设施建设。他曾在腾讯微信、华盛顿大学 Syslab、微软亚研院等机构实习,参与过 DeepSeek-R1 推理系统、MoE 推理优化等重磅项目,深厚的工程经验为 DualPath 的落地提供了关键支撑。
作为 DeepSeek V4 的核心剧透,DualPath 的发布预示着 V4 将重点攻克智能体推理的规模化部署难题。它不依赖额外硬件投入,仅通过架构创新就盘活闲置资源,实现性能翻倍,为智能体从实验室走向产业落地提供了关键的系统级解决方案。

