你的 AI Agent Skills 可能在拖后腿!最新研究证实自生成技能竟拉低任务成功率!

2025 年底至今,AI Agent Skills 成为 AI 领域的热门赛道,尤其在 OpenClaw 生态中,官方 ClawHub 的注册技能数已突破 7800+。低门槛的开发特性让各类 Skills 层出不穷,但这些看似实用的技能包,真的能提升 AI Agent 的任务执行能力吗?

近期《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》论文给出了颠覆性结论:AI 模型自生成的 Agent Skills 不仅毫无增益,还会略微降低任务成功率,而只有人类专业打造的技能包,才能真正赋能 Agent。这一研究通过标准化基准测试,彻底揭开了当前 Agent Skills 生态的真实价值面纱。

先明确:到底什么是 Agent Skills?

论文中对 Agent Skills 的定义进行了精准界定,它并非简单的提示词、RAG 检索或工具文档,而是一种结构化的程序性知识包,核心是告诉 Agent「怎么做」而非「是什么」。

典型的 Agent Skills 以文件夹形式存在,包含核心的 SKILL.md 流程操作步骤,还可配套脚本、模板、参考资料、示例等资源,强调可复用的工作流与 SOP,同时具备跨模型可移植、可执行的特性。

为了开展针对性测试,研究还将 Skills 分为两类:

  • Curated Skills(人工精修技能):由专业人员提前设计的结构化操作指南 + 资源包,是可落地执行的完整 SOP;

  • Self-generated Skills(模型自生成技能):模型在接收任务后,先自行编写技能文件,再基于该文件执行任务,用于验证模型自身知识能否替代人类设计的专业技能。

SkillsBench 基准测试:用真实场景验证技能价值

为了客观评估 Agent Skills 的实际效果,研究团队打造了专门的 SkillsBench 基准测试体系,全程以确定性验证结果(Pass/Fail) 为评判标准,拒绝主观打分,确保测试结果的真实性和参考性。

三大测试阶段,打造高可信度基准

  1. 技能生态收集:从开源仓库、Claude Code 生态、企业伙伴三大渠道收集超 4.7 万个独特技能,由 322 位贡献者提交 105 个候选任务,覆盖真实的 AI Agent 应用场景;

  2. 严格质量筛选:通过自动化检查(结构有效性、验证器稳定性、防 AI 水任务、泄漏审计)+ 人工审查(数据有效性、任务真实性、技能质量、防作弊),最终筛选出84 个有效任务、11 个核心领域

  3. 多场景对比测试:将 84 个任务按人类完成时间划分难度(Core<60min、Extended1-4h、Extreme>4h),在无技能、人工精修技能、模型自生成技能三种条件下,基于 7 种 agent-model 配置、3 套商业执行框架运行,最终生成 7308 条任务轨迹,用 pytest 完成自动化验证。

核心测试结果:天差地别的技能价值表现

测试结果呈现出鲜明的两极分化,人工精修技能与模型自生成技能的效果截然不同,甚至超出预期:

  • 无技能基线:84 个任务的平均通过率为 24.3%;

  • 人工精修技能:平均通过率飙升至 40.6%,平均收益 + 16.2pp,成为唯一能显著提升 Agent 能力的方式;

  • 模型自生成技能:平均通过率仅 21.0%,较无技能基线还下降 3.3pp,平均收益 - 1.3pp,整体呈现负向效果。

不同模型的自生成技能表现也高度一致:除 Claude Code Opus 4.6 有微弱正向增益(+1.4pp)外,其余模型均为平级或负向,其中 Codex+GPT-5.2 的表现最差,通过率直接下降 5.6pp。而人工精修技能则对所有模型均有显著提升,其中 Gemini 3 Flash 的提升幅度最大,通过率从 31.3% 升至 48.7%。

模型自生成技能为何会拖后腿?两大核心失败模式

研究通过轨迹分析发现,模型并非「不会做任务」,而是无法可靠写出自己执行任务时真正需要的程序性知识,简单来说就是「会做但不会说」,最终导致自生成技能沦为无效指南,主要存在两大失败模式:

  1. 知识表达泛化且不完整:模型明知任务需要领域知识,但写出的技能步骤过于笼统,缺乏关键细节。比如仅提示「用 pandas 处理数据」,却未给出核心 API 用法、避坑点、验证方法和边界条件,这类技能对实际执行毫无指导意义;

  2. 缺乏领域技能认知:在制造、金融等高领域知识要求的任务中,模型无法识别任务所需的专业 SOP,习惯性用「通用解法」硬莽,直接跳过关键的行业流程步骤,导致任务执行偏离核心要求。

简言之,模型自生成的技能要么是「看起来像指南的废话」,要么是「抓不住重点的无效内容」,不仅无法为 Agent 提供助力,反而会增加其执行干扰,拉低整体效率。

而这一问题也直接击中了当下 Skills 生态的一个常见场景 ——Claudeception(技能自进化),该模式试图让模型在执行任务中自动提炼踩坑经验,转化为可复用的 Skills,但根据本次研究结论,AI 现阶段无法可靠地完成技能的自我维护和迭代

与之形成鲜明对比的是,人类精修的 Curated Skills 包含明确的步骤顺序、工具命令模板、数据格式约束、验证检查点、常见错误修复路径,且融入了领域专属知识,能精准为 Agent 提供可执行的行动指南。

高质量 Agent Skills 的设计准则:少而精,忌大而全

除了验证技能的来源价值,研究还针对 Skills 的设计要素展开分析,得出了两个关键结论,为打造高效 Agent Skills 提供了明确指引:

技能数量:2-3 个模块为最优解

技能并非越多越好,过多的技能模块会给 Agent 带来认知负担和流程冲突,反而降低执行效率。测试显示:

  • 1 个技能模块:通过率提升 17.8pp;

  • 2-3 个技能模块:通过率提升 18.6pp,为最优配置;

  • 4 个及以上技能模块:通过率仅提升 5.9pp,效果大幅衰减。

文档复杂度:聚焦型远胜大全型

技能文档的核心是「清晰指导下一步行动」,而非堆砌所有相关信息,测试将技能文档分为四类,效果差异显著:

  • 详细型(Detailed):通过率提升 18.8pp,精准且有深度的指导效果最佳;

  • 精简型(Compact):通过率提升 17.1pp,简洁高效的步骤指引次之;

  • 标准型(Standard):通过率提升 10.1pp,常规表述的指导效果一般;

  • 大全型(Comprehensive):通过率反而下降 2.9pp,堆砌信息的百科式技能会产生大量噪声,干扰 Agent 执行。

核心结论:高质量 Skills 是 Agent 的「搜索空间压缩器」

本次研究彻底厘清了 Agent Skills 的核心价值:系统的技能包确实能显著增强 Agent 能力,但关键在于「人类专业设计」,而非「模型自我生成」

真正的高质量 Agent Skills,本质是 Agent 的「搜索空间压缩器」—— 通过限定决策路径、减少无效探索、提供验证锚点、显式化领域隐性流程,让 Agent 精准聚焦任务核心,提升执行效率和成功率。而那些模型自生成的、大而全的、数量过多的技能,只会成为 Agent 的执行负担。

这一结论也为当下 AI Agent Skills 的开发和使用指明了方向:与其让模型自行生成技能凑数,不如投入精力打造少而精的人工精修技能;与其堆砌大量百科式的技能内容,不如聚焦任务核心,设计清晰、可执行、带检查点的结构化 SOP。

毕竟如果发现添加 Skills 后,你的 AI Agent 反而变得「更傻了」,不用怀疑,大概率是无效的技能包拖了后腿。

有点意思但跟我关系不大

听起来技能包得精挑细选才行

确实 现在的技能包好多都太水了 自己瞎写的反而添乱 专业设计的SOP才是真能提效

这论文太扎心了!SkillsHub上那些花里胡哨的技能包原来好多都是坑啊。还是得靠老手们攒的真功夫才能带飞Agent,自己瞎编的基本白给。

这篇研究结论确实点破了当前Agent Skills生态的泡沫。模型自生成的技能本质上只是知识搬运而非真正的程序性设计,缺乏领域深度和隐性约束,最终反而增加了Agent的决策噪声。

早该这样测了
技能泛滥成灾
手动写的才靠谱
模型自己编的全是坑

早就说嘛
技能得人来打磨
模型自己搞不灵
专业经验还是硬道理

所以技能包还是得人来搞

难怪加了技能反而变傻了