2026 年 2 月,智谱正式开源 GLM-5 技术报告,这份 40 页的报告以 **「from Vibe Coding to Agentic Engineering」为副标题,清晰勾勒出大模型从 “被动辅助写代码” 到 “主动独立完成工程任务” 的核心转变。Vibe Coding 是让 AI 按指令写一段代码,而 Agentic Engineering 则是让 AI 自主排查系统 bug、修改代码、运行测试,全程无需人类干预。为实现这一跨越,GLM-5 并未走 “暴力堆参数” 的老路,而是通过异步强化学习框架、稀疏注意力优化、分层能力训练 ** 等一系列 “聪明的扩展方式”,成为为 Agent 场景深度优化的开源大模型标杆,更让开源大模型与顶级闭源模型的能力差距大幅收窄。
硅谷顶级风投 a16z 发布的数据显示,GLM-5 的推出让开源大模型首次站上全球第一梯队,其在多项核心评测中表现亮眼,甚至在部分指标上超越闭源模型,印证了开源大模型在 Agentic 能力上的突破性进展。
硬核数据说话:GLM-5 跻身全球第一梯队,开源模型迎里程碑
GLM-5 的能力突破并非空穴来风,在多个权威评测和真实场景测试中,它交出了一份堪称惊艳的成绩单,不仅刷新了开源模型的纪录,更能与 Claude Opus 4.6、GPT-5.2 等顶级闭源模型正面抗衡。
核心评测创开源新高:在SWE-bench Verified测试中,GLM-5 拿下 77.8% 的成绩,成为开源模型第一。该测试要求模型修复 GitHub 真实仓库的 bug,需完成几万行代码的上下文理解、问题定位、修复方案编写、测试跑通的全流程,是对 Agent 工程能力的极致考验;在BrowseComp测试中,GLM-5 以 75.9% 的成绩拿下所有模型第一,该任务要求模型自主决定搜索方向、提取网页信息、综合分析得出答案,考验的是 Agent 的自主决策和信息整合能力。 综合指数实现开源突破:在包含 10 项核心评测的Artificial Analysis Intelligence Index v4.0中,GLM-5 拿下 50 分,成为首个达到该分数的开源模型,与闭源模型的差距进一步缩小。匿名盲测获海外认可:GLM-5 发布前以Pony Alpha为代号进行匿名盲测,其出色的表现让众多海外大 V 误以为是 Claude 或 Grok 的新版本,足见其能力已达到国际顶尖水平。
国产芯片原生适配:GLM-5 从发布之初就完成了对华为昇腾、摩尔线程等七大国产芯片平台的原生适配,实现了从内核到框架的深度优化,为国内企业的规模化部署扫清了硬件障碍。
a16z 的行业数据更是直观印证了这一趋势:前沿闭源模型持续进步的同时,开源模型的追赶速度肉眼可见,而 GLM-5 正是这场追赶中的核心标杆,其在编码和 Agentic 能力上,已成为开源阵营的领军者。
两大核心难题破解:让 Agent 真正 “能干活” 的关键
要训练出能独立完成工程任务的 Agent,而非单纯的 “代码生成器”,核心要解决两大难题:强化学习训练效率低和长上下文处理成本高、利用率低。GLM-5 团队针对这两个痛点,提出了创新性的解决方案,从时间和空间两个维度,让 Agent 的落地成为可能。
时间维度:Slime 异步框架,解决 Agentic RL 训练效率瓶颈
传统强化学习训练代码生成、数学推理等任务时,样本从生成到获得反馈仅需几秒,全程在 GPU 集群内完成,效率极高。但 Agent 任务完全不同:模型修复一个 bug,需要先浏览代码库、理解逻辑、编写修复方案、运行测试,若测试失败还需反复迭代,这让训练用的 GPU 长期处于 “等待状态”,传统同步强化学习框架的效率被拉到极致,即便增加 GPU 数量,也无法解决外部环境响应的核心瓶颈。
GLM-5 团队提出的Slime 异步强化学习框架,核心是将生成和训练完全独立运行,从根本上解决等待问题:
-
双集群分工:Rollout 集群专门执行 Agent 任务,多台服务器独立运行,任务完成后将模型操作、环境反馈的完整轨迹打包发送;训练集群专门更新模型参数,收到轨迹数据后立即训练,无需等待新任务完成,双集群持续运转、互不等待。
-
两大问题针对性解决:异步设计带来了 token 对齐和离策略训练稳定性的新问题,团队也给出了精准解法。
-
Token-In-Token-Out(TITO)网关:解决不同模型版本的分词器不一致问题,将收到的任意版本 token 还原为原始文本,再用当前训练版本的分词器重编码,实现 token 对齐;
-
双侧重要性采样 + 样本筛选:在 token 和样本级别做加权处理,避免旧策略数据让新策略训练失控;同时记录数据生成的模型版本,丢弃过于陈旧的样本,识别环境故障导致的失败样本,过滤噪声数据。
-
目前 Slime 框架已完全开源,为整个行业的 Agentic RL 训练提供了可复用的解决方案,彻底打破了训练效率的天花板。
空间维度:DSA 稀疏注意力 + 智能上下文管理,让长上下文 “用得好、成本低”
Agent 执行工程任务时,修 bug 需读几十个代码文件,深度搜索需浏览几十个网页,上下文轻松突破 10 万 token,而标准注意力机制的计算复杂度为 O (L²),长序列的计算成本高到难以承受。GLM-5 从降低计算成本、保证训练稳定、提升利用效率三个层面,解决了长上下文的核心痛点。
-
DSA 稀疏注意力,降低 1.5-2 倍计算成本:采用 DeepSeek 提出的 DSA(稀疏注意力)机制,通过轻量级索引器动态判断核心 token,仅对关键 token 做注意力计算,将 20 万 token 长序列的注意力计算成本降低 1.5-2 倍,用一半成本完成相同的长上下文处理工作。
-
确定性 top-k + 冻结索引器,保障训练稳定:DSA 的 CUDA 版 top-k 算子速度快但输出非确定性,会导致强化学习的概率计算紊乱,团队果断换成 PyTorch 原生 torch.topk,牺牲少量推理速度换训练的绝对确定性;同时在强化学习训练中冻结 DSA 索引器参数,仅更新模型主体,既加速训练,又避免索引器学习行为失控。这一选择也印证了一个重要结论:为推理优化的技术,未必适合训练。
-
多思考模式 + 智能上下文策略,提升长上下文利用率:GLM-5 团队认为,长上下文并非 “越长越好”,关键是在有限空间保留最核心信息,为此设计了交错思考、保留思考、轮次级思考三种模式,并针对不同任务提出专属上下文管理策略:
-
针对 SWE-bench 工程任务,采用轮次级思考,避免交错思考的冗余内容挤占代码和测试结果空间,让成绩提升 2 个百分点;
-
针对搜索任务,先采用Keep-recent-k策略,仅保留最近 5 轮工具调用内容,让 BrowseComp 分数从 55.3% 提升至 62.0%;再引入混合层次管理,超过 32Ktoken 时清空工具调用历史重新开始,最终将分数推至 75.9% 的全球第一。
-
完整训练体系:分层训练 + 可验证环境 + 基座优化,打造真正的 Agent
解决了训练效率和长上下文两大核心难题后,GLM-5 构建了一套从基座到落地的完整训练体系,通过分层能力训练、海量可验证环境构建、基座模型工程优化,让 Agent 的能力从 “单点突破” 走向 “体系化落地”。
1. 分层强化学习 + 跨阶段蒸馏,缓解灾难性遗忘
GLM-5 将强化学习分为三个阶段,按推理能力→Agent 能力→对话能力的顺序逐步训练,既符合能力的底层逻辑,又能有效缓解神经网络的 “灾难性遗忘”(学习新任务时遗忘旧任务):
-
Reasoning RL:训练基础推理能力,采用数学题、算法竞赛等有标准答案的任务,为 Agent 能力打下基础;
-
Agentic RL:训练核心 Agent 能力,采用真实软件工程、终端操作、多步搜索任务,基于 Slime 框架训练;
-
General RL:训练对话能力,采用开放式对话、创意写作等任务,放在最后避免基础能力被覆盖。
为进一步缓解遗忘,团队引入跨阶段蒸馏:训练后一阶段时,将前一阶段的最佳模型作为 “教师模型”,让新模型在学习新能力的同时,保留旧能力的核心表现。实验证明,未做蒸馏时,从 Agentic RL 进入 General RL 后,SWE-bench 分数从 77.8% 跌至 73.2%;做了蒸馏后,分数基本无衰减。
2. 海量可验证训练环境,让 Agent 有 “练手的舞台”
Agent 的强化学习需要明确的奖励信号,而可验证的训练环境是奖励信号的基础。GLM-5 团队投入大量精力构建了覆盖多场景的可验证环境,让 Agent 能在真实、可反馈的场景中持续学习:
-
软件工程环境:收集大量 GitHub Issue-PR 对,通过 RepoLaunch 框架自动构建超 1 万个可验证环境,覆盖 9 种编程语言,能自动分析依赖、生成安装脚本、判断测试结果;
-
终端任务环境:通过三阶段数据合成流程,生成数千个可验证 Docker 任务,构建成功率超 90%;
-
搜索任务环境:收集 200 万 + 高质量网页构建知识图谱,以低频实体为种子生成多步推理问题,经三轮筛选保留难度适中、答案唯一的优质问题。
3. 基座模型工程优化,让技术协同发挥最大效能
GLM-5 在预训练阶段做了两大工程优化,让原本互不兼容的技术实现协同工作,大幅提升基座模型的性能和效率:
-
Muon Split:解决 MLA(混合线性注意力)和 Muon 的组合冲突问题,优化时先将 MLA 压缩的表示按注意力头拆开,让 Muon 独立优化,完成后再合并,既保留 MLA 的显存和速度优势,又让性能达到标准 GQA 的水平;
-
参数共享的多 token 预测:用 3 个共享参数的预测层,强迫模型学习更通用的多步预测能力,在相同推测步数下,GLM-5 的接受长度比 DeepSeek-V3 高约 8%。
从 Vibe Coding 到 Agentic Engineering:大模型扩展方式的革命
GLM-5 的核心意义,不仅在于刷新了开源大模型的能力纪录,更在于它宣告了大模型训练从 **“暴力扩展”到“聪明扩展”** 的时代革命。
过去,大模型的能力提升依赖于 “更大的模型、更多的数据、更长的训练时间”,训练完成后发布权重,整个流程便告一段落;而 Agentic Engineering 时代,训练的核心是解决真实场景的问题,用异步架构(Slime)解决时间维度的效率问题,用稀疏注意力(DSA)解决空间维度的成本问题,用分层训练、可验证环境解决能力落地的问题 —— 每一步优化,都是针对具体场景的精准解法,而非单纯的规模堆砌。
更重要的是,智谱将 GLM-5 的Slime 框架、训练体系、核心优化方案全部开源,让 Agent 训练不再是少数大厂的黑箱实验,而是成为整个行业可以复制、改进、超越的工程实践。对于开源生态而言,模型能力的追赶只是一时的,而工程范式的开放和共享,才能真正推动整个 Agent 领域的向前发展。
从 Vibe Coding 到 Agentic Engineering,这一转变不仅是大模型能力的升级,更是大模型落地逻辑的重构:未来的大模型,不再是单纯的 “工具”,而是能真正融入工程流程、自主完成复杂任务的 “智能同事”。而 GLM-5 的出现,让开源大模型在这一赛道上,拥有了与闭源模型同台竞技的底气,也为国内 AI 生态的发展打下了坚实的技术基础。




