大模型 Agent 成为打通现实世界的关键入口,而衡量其能力的核心标准,早已从 “答对问题” 转向以更短路径、更少交互完成复杂任务。华为联合多所高校的研究团队,近日发布业界首个扩散语言模型 Agent(DLLM Agent),通过颠覆传统自回归生成范式,让 Agent 拥有了 “上帝视角” 般的规划能力:在准确率持平的前提下,端到端执行速度平均提升 30% 以上,部分复杂任务效率更是达到传统 AR 模型的 8 倍,为高效 Agent 构建提供了全新底层思路。
相关研究论文《DLLM Agent: See Farther, Run Faster》已正式发布,核心结论与实验细节为大模型 Agent 的设计与优化提供了极具价值的参考。
核心结论:换个 “底座”,Agent 效率实现质的飞跃
研究团队在完全相同的 Agent 工作流、训练数据和交互预算下,仅将底层模型的生成范式从自回归(AR)替换为扩散式(DLLM),就实现了 Agent 能力的系统性提升,核心结论可总结为四点:
-
速度大幅提升:DLLM Agent 端到端执行速度平均提升 30%,复杂多约束任务中提速可达 8 倍;
-
交互成本降低:成功完成任务的前提下,使用更少的工具调用次数和交互轮次;
-
规划能力更强:DLLM 展现出更优的 planner 能力,能更早收敛到正确执行轨迹,回溯和冗余操作大幅减少;
-
优势源于范式本身:该提升并非仅来自并行解码的速度优势,而是体现在 Agent 级别的规划与决策行为上,是生成范式带来的底层能力升级。
极致公平的对照实验:唯一变量仅为生成范式
为排除框架、数据、提示工程等干扰因素,确保实验结果的客观性,研究团队设计了行业内最严格的对照实验,让 AR Agent 与 DLLM Agent 站在完全相同的 “起跑线” 上:
实验统一设定
-
共用同一 Agent 框架:DeepDiver(多智能体架构,层级式规划);
-
采用同一套工具接口、解析规则,使用完全相同的任务进行续训;
-
统一上下文长度(32K)、最大交互轮数、工具调用上限;
-
基础模型能力对齐:AR 模型为 openpangu 7b-v1,DLLM 模型为基于该模型续训的 openpangu diffusion 7b,二者基础推理能力一致。
针对性优化
仅针对 DLLM 的生成特性,在多轮长链交互训练中调整了Mask 策略和 Attention 裁剪策略,提升其训练与推理的一致性。
这意味着,实验中观察到的所有行为和效率差异,均源于生成范式本身,而非模型基础能力、框架或数据的不同。
实验实测:同达目标,DLLM Agent 走了更直的路
在构建完公平的对照平台后,研究团队通过中文多轮 Web 浏览基准测试(BrowseComp-zh)和典型复杂案例,验证了 DLLM Agent 的实战优势,核心表现为效率提升 + 路径优化,而非单纯的 “算得快”。
1. BrowseComp-zh 基准测试:准确率持平,效率全面领先
在包含 110 条任务的子集测试中,DLLM Agent 与 AR Agent 准确率均为 15.5%,但在核心效率指标上实现全面超越,同时也暴露了少量原生问题:
表格
| 方法 | 准确率 (%)↑ | 工具调用次数↓ | 交互轮次↓ | 无效行为率↑ |
|---|---|---|---|---|
| AR Agent | 15.5 | 7.5 | 13.0 | 1.9% |
| DLLM Agent | 15.5 | 6.7 | 13.0 | 6.4% |
核心亮点:DLLM Agent 平均工具调用次数、交互轮次显著减少,端到端延迟下降约 30%,执行轨迹更简洁;
待优化点:原生 DLLM 对结构化工具调用更敏感,无效行为率略有上升,可通过后续策略优化改善。
同时,实验数据显示,DLLM Agent 调用信息检索器的次数远少于 AR Agent,进一步印证了其规划的高效性。
2. 典型复杂案例:8.18 倍速度差,规划逻辑天壤之别
在一个融合动物命名、中资互联网母公司、团队合并、软硬件布局的多约束检索案例中,AR Agent 与 DLLM Agent 均给出正确答案,但执行过程和效率展现出巨大差异,端到端耗时相差 8.18 倍:
表格
| Agent | 工具调用路径 | 端到端耗时 |
|---|---|---|
| AR Agent | 多轮规划、反复验证、生成多个中间文档 | 1152.68s |
| DLLM Agent | 一次明确任务拆解,极短工具调用轨迹 | 140.95s |
二者的规划逻辑差异是核心原因:
-
DLLM Planner:先全局拆解 4 个核心约束,再并行分配研究任务,一步到位制定清晰执行计划;
-
AR Planner:按顺序拆解线索,边研究边验证,过程中产生大量冗余规划,导致效率低下。
这一案例直接证明,DLLM Agent 的优势核心在于更高质量的规划能力,而非单纯的计算速度。
底层原理解析:为何 DLLM 是天生的 “强 Planner”?
研究团队从生成过程、工具调用、注意力演化三个维度,深入解析了 DLLM Agent 规划能力更强的底层原因,发现其生成模式与人类 “先定大纲、再填细节” 的思维方式高度契合,这是其超越 AR 模型的关键。
1. 任务规划:先全局提取,再逐步细化
DLLM Planner 在任务拆解阶段呈现两阶段特征,1-2 个扩散步骤就能并行识别用户问题的所有核心约束,先搭建全局框架,再逐步补充逻辑细节;
而 AR 模型只能按 token 顺序 “边想边写”,一旦早期判断出现偏差,只能通过多轮重新规划、验证来修正,极易产生冗余操作。
2. 工具调用:先定方向,再并行填参
在工具调用阶段,DLLM 将整个操作视为一个整体 “动作块”:先确定要调用的工具,再并行生成所有参数与细节,并在生成过程中反复优化;
AR 模型则是线性流水线式生成,从函数名到各个参数依次输出,一旦前面出现语法或逻辑错误,无法原地修正,只能通过下一轮工具调用来补救。
3. 注意力演化:早期定方向,后期高收敛
通过对扩散过程中 Mask Token 的熵演化和注意力机制分析,发现 DLLM 的核心特性:
-
高不确定性仅集中在决策早期,一旦确定高层规划,后续细节生成的收敛速度极快;
-
注意力呈现 “全局→局部” 的协调模式,始终围绕核心任务展开;
-
而 AR 模型仅追求 token 级别的局部最优,容易偏离核心轨迹,产生无效操作。
4. 问题与优化:针对性策略可弥补原生短板
DLLM Agent 的原生问题是对结构化输出更敏感,易产生工具调用格式错误,研究团队通过设计context-clean corruption 和 span-aware attention mask等训推一致的策略,有效提升了其推理性能,降低了无效行为率。
这也说明,要充分发挥 DLLM 的潜力,不能将其简单替换 AR 模型,而需针对 Agent 的交互场景,重新对齐接口与训练目标。
行业意义:生成范式成为 Agent 设计的全新维度
华为此次的研究成果,为大模型 Agent 的研发带来了颠覆性的全新视角:生成范式并非单纯的技术细节,而是会深刻塑造 Agent 的规划与行为模式,成为高效 Agent 构建的核心设计维度。
在框架、工具、数据均相同的前提下,仅更换扩散式生成底座,就实现了 Agent 效率的大幅提升,证明 Diffusion 不再只是 “另一种生成模型”,而是能让 Agent 实现 “看得更远、跑得更快” 的关键底层技术。
这一研究为后续大模型 Agent 的优化提供了明确方向:围绕扩散式生成范式,针对性设计训练策略、工具接口和交互框架,有望在不提升模型参数量、不增加交互预算的前提下,实现 Agent 能力的质的飞跃,进一步推动大模型 Agent 从实验室走向实际产业落地。

