GLM-5 技术全揭秘:告别 Vibe Coding,开源 AI 迈入长任务时代,国产芯片全适配引全球关注!

2026 年 2 月,智谱 AI 与清华大学联合发布的 GLM-5 模型,以一篇题为《GLM-5: from Vibe Coding to Agentic Engineering》的技术论文引爆全球 AI 圈。这份长达 40 页的论文彻底公开了 GLM-5 的核心技术细节,其不仅实现了连续 24 小时跑代码、700 次工具调用、800 次上下文切换的超强性能,更从零构建出 Game Boy Advance(GBA)模拟器,成功将开源 AI 拽进长任务时代。

海外网友纷纷点赞,直呼 “GLM-5 是最好的开源模型”,a16z 数据显示其已大幅缩小与闭源顶尖模型 Claude Opus 4.6 的差距,而美国网友更是直言 “在成本效率上,美国 AI 已赶不上中国”。春节期间智谱股价的飙升,也从资本市场层面印证了这款模型的行业影响力。

一、三大核心技术突破,破解长任务瓶颈

GLM-5 的诞生,核心是为解决 GLM-4.5 时代遗留的算力成本高、真实环境适应性弱两大难题。基于上一代验证有效的 ARC(智能体、推理与编程)能力和 MoE 架构,GLM-5 通过三大关键技术革新,实现了性能与效率的双重飞跃。

1. 稀疏注意力机制(DSA):成本大降,长文本能力无损

传统 Transformer 架构的密集注意力计算复杂度呈平方级(O (N²) 增长),成为长上下文任务的算力瓶颈。GLM-5 引入 DeepSeek 同款动态稀疏注意力(DSA)机制,通过 “动态筛选重要 Token” 替代全量计算,从根本上降低成本。

为避免稀疏化导致的模型崩塌,团队设计了两步训练策略:先通过稠密预热(Dense Warm-up)让模型建立稳固语义表征,再逐步提升稀疏度,通过动态路由机制仅聚焦 Top-K 相关 Token。这一创新带来显著成效:

  • KV Cache 开销骤降 75%,同等硬件可支撑 4 倍并发或 4 倍长度的上下文处理;

  • 推理速度提升 3 倍,首字响应时间(TTFT)和每秒生成 Token 数(TPS)达行业顶尖;

  • 长文本推理性能损失小于 0.5%,在 “大海捞针” 等评测中表现与全稠密模型几乎无异。

2. 异步多任务强化学习:GPU 利用率翻倍,训练效率飙升

针对主流 PPO 算法同步机制导致 GPU 利用率仅 20%-30% 的痛点,GLM-5 基于 Slime 框架重构了异步强化学习基础设施,将训练与推理引擎解耦至不同 GPU 设备:推理引擎持续生成轨迹,达到阈值后同步给训练引擎更新模型,同时定期同步权重以减少策略滞后。

为支撑这一架构,团队攻克三大技术难题:

  • 采用 Token-in-Token-out(TITO)模式,直接复用推理引擎的 Token 流,避免重新编码导致的偏差;

  • 通过双侧重要性采样解决离策略偏差,丢弃传统旧策略推理,降低计算开销;

  • 引入 DP 感知路由,通过一致性哈希映射 rollout ID,避免长上下文推理中的冗余预填充。

    这套系统支撑了数学、科学、代码、工具集成推理四大领域的混合训练,大幅提升了模型对齐效率。

3. 真实世界数据投喂:构建可验证环境,工程能力拉满

不同于传统 SFT 依赖标准答案的模式,GLM-5 聚焦真实世界复杂场景,构建了大规模可验证训练环境:

  • 软件工程环境:基于真实 Issue-PR 对,覆盖 9 种编程语言,构建超 10000 个可执行环境,自动生成测试命令;

  • 终端环境:通过 “任务草稿 - 实现 - 优化” 三阶段流程,产出数千个 Docker 化终端任务,构建精度超 90%;

  • 搜索任务:基于 Web 知识图谱生成高难度多跳问答对,经三重过滤确保质量;

  • PPT 生成:采用三层奖励机制,16:9 页面达标率从 40% 提升至 92%,大幅减少页面溢出。

同时,GLM-5 支持交错思考、保留思考、轮级思考三种模式,可根据任务复杂度灵活调整推理策略,兼顾精度与效率。

二、国产芯片全栈适配,成本优势凸显

GLM-5 的另一大亮点是完成了与华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原等主流国产芯片的全栈适配。这意味着模型不仅可在 NVIDIA GPU 上训练,更能通过优化方案在国产硬件上高效运行,彻底打破了海外芯片依赖。

这种跨芯片适配能力,让 GLM-5 在成本效率上形成绝对优势。正如海外网友所言:“中国模型能在 NVIDIA GPU 上训练,再通过优化方案适配华为等国产芯片,美国在成本效率上已无法追赶,落后只是时间问题。”

三、评测体系革新:从静态榜单到真实场景验证

GLM-5 在传统评测中表现亮眼:在 Artificial Analysis Intelligence Index v4.0 中以 50 分成为首个达到该分数的开源模型;SWE-bench Verified 得分 77.8%,优于 Gemini 3 Pro,与 Claude Opus 4.5 相当;HLE(含工具)测试得分 50.4,超越 Claude Opus 4.5 和 Gemini 3 Pro。

但智谱团队认为静态榜单存在记忆效应,为此推出全新评测集 CC-Bench-V2,模拟真实软件开发流程,涵盖前端、后端和长程任务,并引入 Agent-as-a-Judge 技术通过 GUI Agent 验证功能正确性。结果显示:

  • 前端构建成功率(BSR)达 98.0%,React、Vue 等框架构建成功率 100%;

  • 后端真实开源项目 Pass@1 达 25.8%,与 Claude Opus 4.5 持平;

  • 长程链式任务 Pass@1 达 52.3%,较 GLM-4.7 显著提升,仅在错误累积处理上与闭源模型存在差距。

这些结果证明,GLM-5 已成为开源界首个 “全站工程师”,能自主执行超长、超复杂的真实开发任务。

四、匿名测试引爆社区,打破地缘偏见

论文公开前,GLM-5 以 “Pony Alpha” 为代号匿名发布于 OpenRouter 平台,凭借卓越性能引发社区轰动:25% 用户误以为是 Claude Sonnet 5,20% 猜测是 Grok 新版本,仅少数用户猜中真身。

这次匿名测试彻底打破了地缘偏见,让模型评价回归技术本身。论文公开后,海外开发者纷纷将其作为学习教程,有入门级研究者表示:“尽管我刚进入 AI 领域,但 GLM-5 的技术报告写得极为出色,从中学到了 28.5 万亿训练 Token、256 个专家节点、7440 亿总参数量等关键信息。”

结语

GLM-5 的发布,不仅以三大核心技术突破定义了开源长任务模型的新标准,更通过国产芯片全适配构建了成本优势,其技术论文的公开更是推动了全球 AI 社区的共同进步。作为开源界首个能媲美闭源模型的 “全站工程师”,GLM-5 不仅验证了单体 MoE 架构统一 Agent、推理与代码能力的可行性,更向世界证明了中国开源大模型的技术实力。

随着模型代码、权重的逐步开放,GLM-5 有望进一步降低复杂 AI 任务的使用门槛,推动更多行业实现自动化升级。未来,在长上下文一致性、长程自纠错等领域的持续优化,或将让开源模型彻底追平甚至超越闭源模型,开启 AI 普惠的全新阶段。

GLM-5 论文地址:https://arxiv.org/abs/2602.15763

国产芯片适配这波真的强

这个模型确实挺厉害的

这么厉害啊看来国产模型真的追上来了

确实厉害 成本优势太明显了

哇这个技术细节太硬核了

国产模型这么强了啊

牛逼啊直接公开技术细节

这次技术公开确实挺厉害的

中国AI确实发展迅猛啊

开源模型这波真顶