当海外厂商靠堆砌 H100 GPU 硬撑模型训练时,中国模型团队正在算力受限的困境中走出一条架构创新之路。蚂蚁集团百灵模型负责人零幺的分享,揭开了国内大模型的突围逻辑:在 GPU 通信带宽被限制、训练算力仅为海外十分之一的背景下,中国厂商通过 MoE 极致稀疏化、Attention 机制改造等架构优化,不仅弥补了硬件差距,更意外契合了 Agent 时代的核心需求,让小参数模型也能具备万亿参数级能力,上演了一场 “限制催生创新” 的行业逆袭。
核心分歧:中外模型的两条路线之争
大模型的核心瓶颈藏在 Attention(注意力机制)中 —— 模型生成每个字时都要 “回头看” 所有前文,计算量随文本长度呈平方级增长。面对这一共性问题,中外厂商因算力条件不同,走出了截然不同的道路。
海外:算力硬撑,Full Attention 一条路走到黑
海外巨头(Google、OpenAI、Anthropic)手握充足的顶级 GPU,选择用最成熟的 Full Attention 方案:让模型每次完整扫描所有上下文,虽效果稳定,但算力消耗巨大。Meta 训练 Llama 3 405B 就耗费了 3080 万 GPU 小时,而国内 DeepSeek 训练 V3 仅用 278 万 GPU 小时,差距高达 11 倍。
这种 “暴力美学” 的前提是硬件自由 —— 海外可轻松获取 H100 GPU,其芯片间通信带宽达 900GB/s,多张 GPU 协同效率无折损。“如果给我 100 万张 H100,我也会选这个方案”,零幺的话道出了行业共识:Full Attention 无需架构折腾,算力足够时是最优解。
国内:架构创新,在约束中找最优解
2022 年美国芯片出口管制后,国内能获取的最高规格 GPU 是 H800,虽计算能力与 H100 相当,但通信带宽被砍至 400GB/s,多 GPU 协同效率大幅下降。在这一约束下,国内厂商被迫走上架构创新之路,形成两大核心突破:
1. MoE 极致稀疏化:万亿参数,仅用冰山一角
MoE(混合专家模型)的核心是 “大模型、小算力”—— 模型虽有万亿参数,但每次仅激活少数专家(参数)干活。国内厂商将这一思路推到极致:
-
百灵、DeepSeek:256 个专家仅激活 8 个;
-
Kimi K2:384 个专家仅激活 8 个;
-
千问 3.5:512 个专家仅激活 10 个。
这种极致稀疏化让模型既能保留万亿参数的知识储备,又能将实际算力消耗控制在低位。以百灵 2.5 为例,1T 总参数仅 63B 激活,却能实现原生 256K 上下文窗口,外推支持 1M token,算力效率远超海外稠密模型。
2. Attention 机制改造:三条路线降低平方级成本
针对 Full Attention 的高算力消耗,国内厂商对 Attention 动起 “手术”,形成三条主流路线:
| 路线 | 核心逻辑 | 代表厂商与方案 | 优势 |
|---|---|---|---|
| 线性化 | 将平方级计算量降至线性级 | 百灵 2.5(1:7 混合比例:1 层标准 Attention+7 层 Lightning Linear Attention)、MiniMax(每 8 层 7 层线性 Attention)、千问 | 长上下文效率最优,计算量随长度线性增长 |
| 稀疏化 | 让模型 “跳着看”,聚焦关键信息 | DeepSeek V3.2(DSA 架构)、GLM-5 | 保留标准 Attention 效果,仅降低冗余计算 |
| 做减法 | 削减注意力头数量 | Kimi K2(注意力头从 128 砍至 64,省 83% 算力) | 无需改变机制,快速提升性价比 |
这些改造并非盲目尝试:百灵通过 Scaling Law 实验,反复验证后确定 1:7 的 Attention 混合比例,既保证效果又控制成本;Kimi 则通过实测发现,多余的注意力头性价比极低,果断砍半后性能未降。
关键发现:60% 算力耗在 8 层 Attention 上
架构创新的背后,是对算力消耗的极致拆解。零幺透露,百灵 2.5 的 80 层网络中,72 层已替换为线性 Attention,仅保留 8 层标准 Attention(MLA),但这 8 层在 256K 长上下文场景下,竟消耗了总算力的 60% 以上。
这一惊人数据的核心原因的是 Agent 场景的需求特性:Agent 执行任务时,会不断搜索、读文档、写代码,上下文持续堆积,轻松突破 128K、256K。此时,标准 Attention 的平方级计算量会急剧膨胀,而线性 Attention 仅线性增长,导致少量标准 Attention 反而成为算力黑洞。
“国内大部分模型,要么在稀疏化上走得远,要么在线性化上走得远,否则会被效率打掉”,零幺强调。效率与效果已成为同等重要的核心指标 —— 效果不够强还能用,但若响应超时,用户会直接放弃,这在 Agent 场景中是致命缺陷。
行业颠覆:小模型逆袭,一年压缩一个数量级
架构优化的连锁反应,正在改写模型规模与能力的关系。零幺透露一个实测趋势:模型能力正快速迭代,不到一年时间,200B 总参数模型的效果就能超越前代万亿参数模型,类似 “大模型摩尔定律” 正在生效。
这一趋势已被多家厂商验证:千问 3.5 以 397B 总参、17B 激活参数,在多个维度打赢上一代万亿模型;GLM-5 用 744B 总参、40B 激活参数,被 a16z 评为 “最好的开源模型”;蚂蚁百灵 2.5 更是以 1T 总参、63B 激活参数,实现原生 256K 上下文、多模态生成等核心能力,且全部开源。
但这一进步对应用团队而言,却面临 “时间差困境”:模型厂商需要一年完成技术迭代,但应用公司可能等不到一年就已倒闭。如何让架构创新的红利快速落地,成为行业共同命题。
未解之谜:Agent 时代的两大关键挑战
尽管架构创新成效显著,但零幺也坦言,面向 Agent 场景,大模型仍有两大核心难题待解:
1. 多工具协同能力缺失,Benchmark 高分无用
现有模型评测都是 “单项考试”:搜索能力单独考、写代码能力单独考,但真实工作中,程序员写代码卡住会搜资料,报错了会查文档,需要多工具协同。“你让模型单独搜索或写代码都在行,但边搜边写就崩了”,零幺指出了评测与实际场景的脱节。
为此,百灵团队提出 “production research” 理念 —— 观察真实生产环境中的工作模式,以此设计训练数据与评测标准。他们甚至修复了已解散团队的 GAIA2 benchmark(唯一支持异步多依赖任务的评测),用于内部评估,只因它更接近 Agent 真实工作流。
2. 过程奖励缺失,长程任务难优化
当前 Agent 训练多采用 “结果奖励”:任务完成后才给 “对 / 错” 信号,但 Agent 执行长程任务时,中间要经历几十上百步操作,稀疏的奖励信号让模型难以学习。百灵 2.5 在数学证明题上的进步,就源于 “逐步验证”—— 每一步推导都检查对错,过程反馈让模型快速迭代。但零幺承认,Agent 过程奖励的成熟方案尚未出现,这是提升训练效率的关键突破口。
组织密码:松耦合协作,让产品引导模型进化
蚂蚁百灵的成功,还离不开独特的团队协作模式。产品团队与基模团队采用 “松耦合” 协作:产品团队提前半年用 Demo 视频提出功能需求,基模团队从中筛选 “能做、该做” 的方向,双方在需求池里找交集。
2025 年 2-3 月,灵光(蚂蚁 C 端 AI 产品)团队发现国内模型都生成不了高质量 HTML 页面,仅 Claude 能做到,便将这一需求纳入池中。百灵团队在 2.0 版本训练中强化相关能力,等产品上线时,HTML 生成已成为核心亮点。这种 “产品预判 + 模型前置优化” 的模式,让技术创新精准命中用户需求。
结语:限制催生的行业变革
算力受限本是劣势,但中国模型团队却将其转化为架构创新的动力。从 MoE 极致稀疏化到 Attention 机制改造,从长上下文优化到多工具协同探索,国内模型正在用 “巧劲” 弥补硬件差距。正如零幺所说,行业正在经历从 “堆算力” 到 “拼架构” 的转型,而这场转型的最终受益者,将是那些能在约束中找到最优解的创新者。
当海外还在依赖硬件红利时,中国模型已通过架构革命掌握了核心竞争力 —— 这不仅是算力受限下的无奈之举,更可能成为未来大模型的主流发展方向。毕竟,高效的架构永远比堆砌硬件更具可持续性,而这场由限制催生的创新,正在让中国模型实现弯道超车。