在 2025 年 QCon AI NYC 大会上,OpenAI 研究员 Will Hang 和 Wenjie Zi 联合呈现了一场备受关注的演讲,主题聚焦于企业级 AI 智能体(Agent)的优化方法论。他们重点介绍了专为工具使用型智能体设计的创新技术——Agent RFT(Agent Reinforcement Fine-Tuning,强化微调),并系统性地分享了从提示优化到模型微调的完整进化路径。
从提示优化开始:高杠杆改进优先于改权重
Will Hang 开场即强调了一个关键原则:在动模型权重之前,先穷尽提示工程和任务设计层面的优化。
他列举了一系列实战有效的优化手段:
- 简化用户需求描述,避免歧义
- 添加防护机制(guardrails),防止工具误用或无限循环
- 优化工具描述的清晰度和一致性
- 提升工具输出质量(如结构化 JSON、去除噪声)
这些非微调方法往往能带来极高的性价比提升,但在需要跨工具、多步骤一致性推理的复杂任务中,会逐渐遇到天花板。此时,才应转向更深层次的模型微调方案。
微调方法谱系:从监督学习到强化学习
Hang 将智能体微调选项描述为一个连续谱系:
| 方法 | 适用场景 | 特点 |
|---|---|---|
| 监督微调(SFT) | 输入→输出存在明确、可预测的映射关系,需要模仿一致风格或结构 | 简单高效,适合格式化输出任务 |
| 偏好优化(Preference Optimization) | 通过成对比较学习更优响应,目前主要用于纯文本输入输出 | 如 DPO(Direct Preference Optimization) |
| 强化微调(RFT) | 需要模型在长轨迹中探索策略,而非单纯复制单一演示 | 更适合多步骤、工具交互的复杂智能体任务 |
“警惕奖励破解(reward hacking)!解决评分器中的任何边缘情况。连续奖励比二元奖励效果更好。” —— Will Hang, OpenAI
Agent RFT:专为工具使用型智能体量身定制的强化微调
Agent RFT 是 OpenAI 将强化学习微调技术针对工具调用场景进行深度适配的成果。
核心训练循环:
- 模型采样多种候选响应轨迹(包括工具选择、调用顺序、参数等)
- 自定义评分器(grader)对完整轨迹打分
- 基于分数更新模型权重
关键特性:
- 跨完整轨迹的信用分配:早期决策(如工具选择)可根据下游最终结果获得强化或抑制
- 将智能体定义为“能够通过工具与外部世界交互的系统”,而非单纯响应提示的聊天模型
- 工具调用、工具输出、推理标记、最终回答共同构成单一长上下文轨迹
工具生态与评分器设计多样性
演讲中展示了丰富的工具使用场景:
- 编程智能体的终端工具
- 客户支持场景中的内部业务系统 API
- 文档检索端点、数据库查询等
评分器(grader)设计成为核心:
- 简单正则匹配器
- 基于模型的判断器(model-based grader)
- 基于代码执行的评分器
- 外部端点评分器
- 组合多种评分器(ensemble),平衡准确性与延迟
超越准确性:优化运营属性
Agent RFT 的独特价值在于优化那些准确率指标难以捕捉的运营属性:
- 减少不必要的工具调用
- 强制执行工具调用预算(token/次数上限)
- 削减超长轨迹的长尾分布,降低不可预测延迟
幻灯片展示的训练曲线显示:随着训练进行,推理标记和工具调用次数显著减少,表明智能体学会了用更少步骤达成同等或更好结果。
实际案例:金融领域智能文档检索
Wenjie Zi 在后半场分享了具体落地案例,以金融领域为例:
- 任务:在严格的工具调用预算下,从海量文档中检索并回答问题
- 可用工具:搜索、列表目录、读取文件(通过端点暴露)
- 评分方式:即使是数值答案,也优先使用基于模型的评分器,避免因格式、单位或微小差异导致的假阴性
结果亮点:
- 显著提升规划能力
- 长轨迹尾部大幅减少
- 部分场景出现并行工具调用趋势,减少顺序轮次延迟
Zi 还提及了在智能编程等其他领域的扩展应用,强调奖励设计需平衡正确性、流程规范与效率。
总结
这场演讲为企业级 AI 智能体开发提供了清晰、可操作的优化路线图:从提示工程起步 → 必要时引入监督/偏好微调 → 复杂工具交互场景下采用 Agent RFT。随着强化学习基础设施的成熟,2025 年将成为工具使用型智能体从“能用”走向“好用、可靠、可运营”的关键转折年。
如果你正在构建企业级 Agent,这套方法论值得立即参考实践!