AI 下半场指路明灯!姚顺雨腾讯首篇论文:上下文学习成核心,10 大模型集体翻车!

入职腾讯担任首席 AI 科学家后,姚顺雨带来了首个重磅成果 —— 联合腾讯混元与复旦大学团队推出 CL-bench 基准测试,直指 AI 核心痛点:即使是当前最强的大模型,在 “从上下文实时学习” 的真实场景中,任务解决率也仅 23.7%。这项研究完美呼应了他此前提出的 “AI 下半场” 论断:告别参数堆砌,转向真实任务的能力检验,而上下文学习正是破局关键。

01 核心矛盾:模型是 “考场学霸”,却成 “职场菜鸟”

今天的前沿大模型堪称顶级 “做题家”—— 解奥数、写代码、通过专业资格考试不在话下,但在真实世界的工作场景中,它们却频频掉链。

研究团队一针见血地指出了问题本质:人类擅长从 “当下上下文” 中实时学习,而模型依赖的是 “过去的静态知识”。就像开发者扫一眼陌生工具文档就能调试代码、玩家边看新游戏规则书边实战、科学家从实验日志中推导新结论,人类总能吸收眼前的新知识解决问题。

而大模型的核心依赖是 “参数化知识”—— 预训练阶段压缩进权重的静态记忆。推理时,它们更倾向于调用这些 “封存的旧知识”,而非主动从当前输入的新信息中汲取营养。团队用一句话概括这一矛盾:“我们造出了依赖‘过去’的参数推理者,但世界需要的是能吸收‘当下’环境上下文的学习者。”

02 CL-bench 横空出世:500 个复杂场景,专治 “不会实时学习”

为了量化模型在上下文学习能力上的差距,团队打造了 CL-bench 基准测试,设计原则堪称苛刻:解决任务必须依赖上下文中的新知识,预训练中绝无可能接触

这款基准包含 500 个复杂上下文、1899 个任务和 31607 个验证标准,所有内容均由资深领域专家打造,平均每个上下文耗时 20 小时标注,确保质量与深度。为了避免数据泄露,内容要么是完全虚构的(如全新法律体系),要么是小众长尾来源,或是现实内容的变体。

CL-bench 涵盖四大真实场景,全面考验模型的上下文学习能力:

  1. 领域知识推理:基于 2.3 万字的虚构《2025 客户与产品数据法案》,为客户制定维权方案;

  2. 规则系统应用:根据新设计的教育编程语言规范,编写定时终止的周期性程序;

  3. 程序性任务执行:解读 8517 字的 Vex 框架文档,运行指定代码并输出结果;

  4. 经验发现与模拟:依据 1 万字的技术规格,模拟关键金属在特定环保政策下的全球供应。

更关键的是,在不提供上下文时,即便是最强的 GPT-5.1 (High),任务解决率也不足 1%,有力证明了这些任务对上下文学习的强依赖。

03 扎心实测:10 大前沿模型集体翻车,最高正确率仅 23.7%

团队对 10 款最先进的大模型进行了测试,结果令人意外 —— 所有模型都表现惨淡,平均任务解决率仅 17.2%,即便是表现最好的 GPT-5.1 (High),也仅能完成 23.7% 的任务,超过四分之三的任务都以失败告终。

各模型表现排名(整体解决率):

  1. GPT 5.1 (High):23.7%±0.5

  2. Claude Opus 4.5 Thinking:21.1%±1.4

  3. GPT 5.2 (High):18.1%±0.8

  4. o3 (High):17.8%±0.2

  5. Kimi K2 Thinking:17.6%±0.6

  6. HY 2.0 Thinking:17.2%±0.6

  7. Gemini 3 Pro (High):15.8%±0.3

  8. Qwen 3 Max Thinking:14.1%±0.1

  9. Doubao 1.6 Thinking:13.4%±0.1

  10. DeepSeek V3.2 Thinking:13.2%±0.4

进一步分析发现,模型在不同场景下的表现差异明显:经验发现与模拟类任务最难,解决率普遍低于 10%;而程序性任务执行相对容易,但即便是表现最好的模型,解决率也不足 24%。

04 失败原因揭秘:不是不会,是 “不学不用”

错误分析揭示了三大核心问题,其中 “忽视或误用上下文” 是主因:

  1. 无视上下文知识:60% 左右的失败源于模型忽略了上下文中的关键细节,即便明确给出新规则、新概念,模型仍执着于调用预训练的旧知识;

  2. 误用上下文信息:超过 60% 的模型存在应用错误,无法正确将学到的新知识落地到任务中;

  3. 格式与指令失效:30%-45% 的失败是因为输出格式不符合要求,部分模型甚至会拒绝回答。

更值得注意的是,单纯提升推理强度对性能提升有限。例如 GPT-5.1 在部分任务上的表现仅提升 2.5%-6%,说明仅靠 “多思考” 不够,模型还需学会 “正确吸收和组织上下文信息”。

05 AI 下半场:从 “刷榜” 到 “落地”,上下文学习是关键

CL-bench 的推出,正是姚顺雨 “AI 下半场” 理念的具体实践。他此前在《下半场》博文中明确指出:AI 上半场是 “训练大于评估”,比拼参数规模;下半场是 “评估大于训练”,核心是在真实任务、真实系统中经得起检验。

如今,姚顺雨加盟腾讯后,这份研究进一步明确了下半场的发力方向 —— 让模型真正掌握上下文学习能力,从 “参数推理者” 升级为 “实时学习者”。这不仅是技术升级的需要,更是 AI 从实验室走向产业落地的关键:只有能像人类一样吸收新知识、适应新场景,模型才能真正胜任职场工作。

团队在论文中明确了下一步目标:“让上下文学习真正走向现实”。而 CL-bench 的开源,也为行业提供了统一的评估标准,推动所有玩家从 “刷榜竞赛” 转向 “能力深耕”。

随着 AI 技术进入深水区,参数堆砌的红利逐渐见顶,上下文学习这类 “真实场景能力” 将成为新的竞争焦点。姚顺雨与腾讯混元的这次布局,不仅揭开了当前大模型的核心短板,更给 AI 下半场指明了清晰的破局路径。

论文地址

https://github.com/Tencent-Hunyuan/CL-bench/blob/main/clbench-paper.pdf

这结果确实有点意外

这测试结果确实有点扎心啊

这测试结果确实有点扎心啊

这测试结果有点扎心啊

GPT5.1才23.7%啊
看来实时学习真是大难题
下半场得玩真的了

这测试有点东西啊

这测试有点东西啊

这测试够狠啊
模型还得练

这测试太真实了
职场菜鸟实锤了
上下文学习真难啊

这测试有点东西啊