从辅助编码到自主工程!智谱 GLM-5 技术解密:多步 RL 训出顶级开源编程 Agent!

智谱近期可谓双线告捷:1 月 8 日港股上市后,45 天市值暴涨超 500%,一度突破 3200 亿港元;资本市场热度未消,技术社区再迎重磅 ——GLM-5 技术报告正式公开,40 页内容完整揭秘了这款模型从「AI 辅助写代码」到「自主完成工程任务」的进化路径。作为当前顶尖的开源模型,GLM-5 已大幅缩小与闭源标杆 Claude Opus 4.6 的差距,更在多项核心基准测试中创下开源模型最佳战绩,成为 2025-2026 年 AI Agent 赛道的核心焦点。

核心定位:从「氛围编程」到「智能体工程」的范式跃迁

GLM-5 的技术报告标题「from Vibe Coding to Agentic Engineering」,精准概括了其核心定位的升级:不再是程序员的辅助工具,而是能 7×24 小时自主完成工程任务的智能体。

传统 AI 编程仍需「人在循环」:人类提需求、AI 写代码、人类校验修改;而 GLM-5 倡导的「智能体工程」,是将人类从循环中解放 ——Agent 可自主规划任务、编写代码、运行测试、修复 bug,形成端到端的闭环能力。这一转变意味着 AI 的 token 消耗模式从「一次性对话」升级为「持续运转」,一个 Coding Agent 完成单次 SWE-bench 任务即可消耗数万甚至几十万 token。当 Agent 成为主要的 token 消费场景,GLM-5 的定位恰好契合了行业的核心商业想象力。

硬核成绩单:开源模型天花板,多项指标登顶

GLM-5 的基础配置堪称豪华:744B 总参数、MoE 架构(256 个专家每次激活 8 个,推理时活跃参数约 40B),基于 28.5T tokens 的海量数据训练,其测试表现更是刷新了开源模型的上限:

  • 综合能力拔尖:在 Artificial Analysis Intelligence Index 评测中斩获 50 分,成为首个达到该分数的开源模型,与闭源模型的差距大幅缩小;

  • 编码能力开源第一:SWE-bench Verified(真实软件缺陷修复)得分 77.8%,位列开源模型榜首;

  • 全模型单项冠军:BrowseComp(联网检索 + 上下文管理)75.9%、MCP-Atlas(工具调用)67.8%,论文称这两项成绩超越 Claude Opus、GPT-5.2 等所有模型,拿下全模型第一;

  • 自研基准表现亮眼:在包含前端开发、后端开发、长周期 Agent 任务的 CC-Bench-V2 评测中,整体表现接近 Claude Opus 4.5,仅在需强审美判断的前端任务中略逊一筹,数据可信度极高。

技术解密:从预训练到后训练的全链路创新

GLM-5 的核心突破集中在预训练的工程优化与后训练的 Agent RL 体系构建,尤其是后者的 Slime 异步框架,为行业提供了 Agent 训练的系统级解决方案。

预训练:两个「小而美」的工程巧思

预训练阶段的创新虽非颠覆性突破,但通过细节优化实现了技术的高效协同,大幅提升训练效果与推理速度:

  1. Muon Split:让冲突技术高效协作

    GLM-5 同时采用 MLA(压缩记忆省显存)与 Muon(快速训练优化器),但二者工作模式存在冲突 ——MLA 需「打包信息整体处理」,Muon 需「拆包信息独立优化」。智谱的解决方案简单直接:在中间增加「拆包 - 优化 - 打包」流程,先拆包让 Muon 逐份优化,再打包回传给 MLA 处理。实验数据显示,这一调整显著提升了模型在 MMLU、C-Eval 等基准的表现。

  2. 共享参数多步预测(MTP):加速推理连贯性

    MTP 技术可让模型一次预测多个词以提升速度,DeepSeek 采用 1 个独立预测层,而 GLM-5 大胆采用 3 个共享参数的预测层。这种设计逼着模型学习通用的「多步预测逻辑」,如同下棋时用同一套棋理连贯思考多步,比多个独立层更具连贯性。测试显示,相同推理步数下,GLM-5 每次预测的被接受词数比 DeepSeek 多 8%,推理效率更高。

后训练重头戏:Slime 异步 Agent RL 框架

如果说预训练是「打好底座」,后训练的 Slime 框架就是「塑造核心能力」—— 它解决了 Agent RL 大规模训练的效率瓶颈,是 GLM-5 成为顶级编程 Agent 的关键。

Agent RL 的核心痛点

传统同步 RL 框架(如 OpenRLHF)中,生成与训练紧耦合:生成一批数据、训练一批模型、再生成下一批。但 Agent 执行工程任务(如修复 GitHub bug)时,需经历「读代码 - 写代码 - 跑测试 - 改 bug」等几十轮交互,单次任务完成可能耗时数分钟甚至几十分钟,导致 GPU 集群长期处于等待状态,训练效率极低。

Slime 框架的创新解法:完全解耦生成与训练

Slime 框架通过「Rollout 服务器集群 + 训练集群 + TITO 网关」的架构设计,彻底解决了效率问题,同时保证训练稳定性:

  • Rollout 服务器集群:独立执行 Agent 任务,配备专属 GPU 推理,完成后将完整执行轨迹(trajectory)回传,无需等待训练集群反馈;

  • 训练集群:专注于参数更新,收到数据后立即训练,不依赖生成环节,实现「有数据就练」的高效流转;

  • TITO 网关(Token-In-Token-Out):解决异步训练的版本匹配问题。由于生成与训练不同步,Rollout 服务器的模型版本可能落后于训练集群,直接用旧版本 token 训练会导致兼容问题。TITO 网关通过统一文本中间层,将所有轨迹先转成文本,再用当前训练版本的分词器重新编码,确保 token 与模型版本一致;

  • 双侧重要性采样:处理历史版本数据的稳定性问题。训练集群收到的异步数据可能来自多个历史模型版本,单纯使用旧策略与新策略的概率比易导致训练震荡,而双侧采样通过 token 级别与样本级别的双重权重控制,既保证数据利用率,又避免极端样本干扰。

目前 Slime 框架已开源(github.com/THUDM/slime),为行业提供了首个 Agent RL 的系统级解决方案,既解决「跑得起来」的基础设施问题,又通过算法保证「跑得稳当」。

三阶段 RL + 跨阶段蒸馏:避免能力遗忘

异步框架解决了「怎么训」,三阶段 RL 则明确了「训什么」,且通过跨阶段蒸馏规避了机器学习中的「灾难性遗忘」问题:

  1. 第一阶段:Reasoning RL(教模型「想」)

    用 MATH、AIME 数学竞赛、代码竞赛等有明确对错的任务训练,建立扎实的基础推理能力;

  2. 第二阶段:Agentic RL(教模型「做」)

    通过 SWE-bench(修复真实 bug)、终端任务、多跳搜索等长周期任务训练,搭配 Slime 框架强化工程实践能力;

  3. 第三阶段:General RL(教模型「当人」)

    用开放对话、创意写作、角色扮演训练,让模型兼具专业能力与交互质感,成为有性格的对话伙伴。

为防止后续阶段覆盖前期能力(如训练对话后忘记修 bug),GLM-5 引入「在线跨阶段蒸馏」:每个阶段训练时,都以前一阶段的最佳模型为「老师」,让新技能学习与旧技能保留同步进行。数据显示,无蒸馏时 SWE-bench 得分从 77.8% 降至 73.2%,有蒸馏则基本不掉分。

细节设计:适配 Agent 场景的三种思考模式

传统思考型模型(如 DeepSeek R1)每次交互都进行长文本内部推理,但 Agent 任务需多轮交互,过长思考会挤占上下文空间。GLM-5 设计了三种场景化思考模式,实现「该想时想,该做时做」:

  • 交错思考(Interleaved Thinking):每轮都思考但内容简短,适配需持续推理的场景;

  • 保留思考(Preserved Thinking):仅第一轮深度思考,后续轮次直接执行,思考内容留存供参考,适配任务明确、步骤繁多的场景;

  • 轮次级思考(Turn-level Thinking):每轮独立思考且不保留历史思考记录,适配上下文紧张的长任务。

实验显示,在 SWE-bench 任务中,Turn-level Thinking 比 Interleaved Thinking 表现高 2 个百分点,核心原因是前者节省了上下文空间,避免思考内容挤占代码与报错信息。

工程落地:原生适配国产芯片,不止于口号

GLM-5 从发布之初就实现了国产 GPU 生态的全面适配,覆盖华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原 7 家主流芯片平台,且并非简单兼容,而是全链路深度优化。

以华为昇腾 Atlas 系列为例,智谱通过 W4A8 混合精度量化,让单台服务器可承载 750B 参数;通过定制融合算子解决稀疏注意力的计算瓶颈;深度适配 vLLM-Ascend 和 SGLang 推理引擎,最终实现单台国产算力节点的推理性能,媲美两台国际主流 GPU 集群。

7 家芯片的架构、指令集、编程模型各不相同,意味着底层算子需针对性重写 7 遍,这虽是耗时费力的工程活,却倒逼智谱形成了跨芯片的工程能力,成为其长远竞争优势。

结语:开源生态的关键推动者

GLM-5 的创新并非单点突破,而是从定位、架构到工程落地的全链路优化:预训练的工程巧思提升基础效率,Slime 异步框架攻克 Agent 训练核心痛点,三阶段 RL 与场景化思考模式让能力更适配实际需求,再加上国产芯片的深度适配,共同造就了这款顶级开源编程 Agent。

更重要的是,智谱将核心的 Slime 框架开源,让后续团队无需重复造轮子,直接站在更高起点推进 Agent 技术迭代。在架构趋同的当下,后训练阶段的 RL 设计、Agent 适配、防遗忘方案成为行业竞争的核心,而 GLM-5 的技术报告,恰好为整个行业提供了一套可落地的参考范式。

744B 参数、28.5T tokens 训练数据、开源核心框架、适配国产生态,GLM-5 不仅刷新了开源模型的性能上限,更推动了 AI Agent 技术的民主化进程。这篇 40 页的技术报告,无疑是 2026 年 AI 领域最值得精读的技术文献之一。

论文链接:https://arxiv.org/abs/2602.15763

智谱这次技术报告干货不少,SLIME框架解决Agent训练效率问题确实抓住了痛点。不过实际工程落地还是得看社区反馈,光有理论不够。

这个势头确实猛啊

这技术路线挺实在

智谱这势头真猛啊