访存缩至 1/10、吞吐量提 3 倍!蚂蚁开源两大万亿大模型,Ling 2.5 架构重构效率天花板!

当大模型行业陷入 “参数竞赛” 的内卷,算力与资源消耗成为规模化落地的核心瓶颈,蚂蚁集团给出了全新的破局思路 —— 不靠暴力堆参数,而是从架构底层创新实现效率与性能的双重突破。2026 年 2 月,蚂蚁 inclusionAI 团队正式发布百灵大模型家族新一代开源万亿参数模型Ling-2.5-1T(即时模型)Ring-2.5-1T(思考模型),两款模型依托独创的混合线性注意力架构Ling 2.5,在长文本生成与长程推理场景中实现访存规模压缩至传统架构 1/10、生成吞吐量提升 3 倍的跨越式突破,更成为业内超大型混合线性注意力架构模型与全球首个万亿参数混合线性注意力思考模型,为大模型行业跳出参数内卷、回归架构进化本质提供了关键范本。

更值得关注的是,此次架构优化带来的效率提升并非以性能为代价。在推理、智能体、指令遵循、长上下文等多场景基准测试中,Ling-2.5-1T 全面超越 DeepSeek-V3.2-nothink、Kimi-K2.5-Instant、GPT-5.2-chat 等同类型即时模型;而 Ring-2.5-1T 更是在 IMO 2025、CMO 2025 数学奥赛中拿下金牌水平(自测 IMO 35 分、CMO 105 分),开启重度思考模式后,在数学竞赛推理、代码生成等基准测试中超越所有开源与闭源对比模型,展现出架构创新的硬核实力。

万亿参数时代的架构困局:传统注意力机制的效率天花板

注意力机制是大模型理解语义、捕捉长程依赖的核心,而以 Softmax 为核心的传统注意力机制,长期以来都是 Transformer 模型的标配。其优势在于能完整 “翻阅” 上下文,精准捕捉词与词的关联,赋予模型强大的表达力和细粒度对齐能力,但短板也同样突出:计算量随文本长度呈平方级增长,随着大模型向万亿参数、超长上下文演进,算力和显存消耗呈指数级攀升,成为规模化应用的最大掣肘。

为破解这一难题,线性注意力机制进入行业视野。通过数学重构,线性注意力不再为每个 token 反复回溯全部序列,而是依托状态记忆持续传递核心信息,如同接力赛一般承接前序成果,将计算复杂度从 O (n²) 降至 O (n),实现了更低的 FLOPs、更小的显存占用和更快的生成速度。但线性注意力也并非万能,在精准定位关键信息、复杂长程依赖建模等场景中,其表现仍难以匹敌传统注意力机制。

在此背景下,混合线性注意力架构成为兼顾性能与效率的最优解:在同一模型中进行分层分工,部分层保留传统注意力处理复杂语义与全局依赖,部分层采用线性机制降低计算负担,实现表达能力与计算效率的动态平衡。但这一理念的工程化落地并非易事,超大规模参数训练下,两种机制的协同运行易引发数值震荡,注意力层的混合比例无通用公式可遵循,且线性部分的信息传递易丢失关键语义,成为行业共同面临的三大技术瓶颈。

从实验室到万亿规模:Ling 2.5 架构的工程化突破之路

事实上,混合线性注意力架构已成为行业共识,Minimax、月之暗面、阿里、OpenAI 等机构均已展开探索,月之暗面此前发布的 KimiLinear 架构更是实现了 KeyValue 缓存减少 75%、百万长文本解码吞吐量提升 6 倍的成果。而蚂蚁百灵团队的探索,更聚焦于将这一架构真正推向万亿参数的工程化落地,其研究历程清晰分为技术可行性验证与万亿规模落地两大阶段,步步为营破解行业瓶颈。

第一阶段:验证线性注意力的工业级可用性,敲定最优混合比例

早在 2025 年 9 月,蚂蚁百灵团队便开源 Ring-mini-linear-2.0 与 Ring-flash-linear-2.0 模型,并发布技术报告,首次验证了线性注意力在真实工业规模训练和长上下文推理中的可用性。团队提出分组混合思路,将线性注意力与 Softmax 注意力按固定比例组合,每个 layer group 包含 M 层线性注意力 + 1 层 Softmax 注意力,在保持表达能力的同时,将模型复杂度拉向近似 O (n)。

通过大量 Scaling Law 实验,团队最终敲定1:7 的混合比例(7 层线性注意力 + 1 层 Softmax 注意力)为最优解,实验证明这一 “线性为主、Softmax 为辅” 的结构,在高 FLOP 预算下表现优于纯 Softmax 结构,打破了 “线性注意力牺牲性能” 的固有认知,实现了效率与效果的更优平衡。

同时,团队自研两大高性能融合算子,成为架构落地的重要支撑:训练端的 FP8 融合算子通过精细化算子融合和自适应重计算量化技术,将 FP8 混合精度训练的计算效率提升 1.5-1.7 倍;推理端的线性注意力融合算子支持更多推理模式,进一步提升推理引擎吞吐。架构优化与算子创新协同,让两款 Ring-linear 模型的深度推理成本降至同尺寸 Dense 模型的 1/10,较原有 Ring 系列下降超 50%。

第二阶段:Ling 2.5 架构升级,实现万亿参数的工程化跃迁

在技术验证的基础上,蚂蚁百灵团队推出Ling 2.5 架构,在 Ling 2.0 的基础上通过增量训练,将原有基于 Softmax 的 GQA 注意力机制,全面升级为 1:7 的 MLA+Lightning Linear 混合结构,真正实现混合线性注意力架构的万亿参数落地。

Ling 2.5 架构做出了针对性的优化设计:将大部分 GQA 层改造为 Lightning Linear Attention,大幅提升长程推理的吞吐能力;剩余 GQA 层转为 MLA 结构,在压缩 KV Cache 的同时保留模型表达能力;同时完整保留 QK Norm、Partial RoPE 等关键机制并做适配,确保架构迁移过程中模型表达能力不塌陷。即便改造后,Ling-2.5-1T 和 Ring-2.5-1T 的激活参数从 51B 提升至 63B,但架构优化带来的效率收益,完全覆盖了参数增加的负担,实现推理吞吐的显著提升。

为进一步强化模型能力,团队还对 Ling-2.5-1T-base 进行了9T 优质语料的持续预训练,重点提升模型的世界知识覆盖与智能体交互基础能力;依托混合线性注意力架构在长文本处理上的高可扩展性,将模型上下文窗口扩展至 256K tokens,并通过 YaRN 外推技术支持最高1M tokens 的超长上下文处理,成为处理超长篇幅文档的核心优势。

架构创新的价值:从实验室指标到真实场景的商业落地

Ling 2.5 架构的创新价值,不仅体现在实验室的基准测试指标中,更在工程实践与真实商业场景中得到充分验证,实现了从技术效率到业务价值的全面转化。

在工程性能上,Ling-2.5-1T 展现出极致的高效性:在 AIME 2026 评测中,模型仅需平均 5890 个 token 的输出长度,就能达到前沿思考模型的性能,而后者通常需要 15000-23000 个 token 才能完成同等复杂任务;在单机 8 卡 H200 配置下,即便激活参数量提升至 63B,其长文本生成的解码吞吐量仍显著优于前代 1T 模型与同等参数量的 Kimi K2,且文本长度越长,吞吐量优势越明显,完美适配长程推理场景的需求。

在真实场景中,两款模型的能力得到充分落地:Ling-2.5-1T 在《知识产权质押纠纷》等复杂法律任务中,能严格遵循超 10 项涵盖框架、细节、格式、字数的多维度指令约束,生成逻辑连贯、条理清晰的答复,其优化后的长上下文能力确保了多指令执行过程中的信息一致性;在财报解读场景中,模型可直接对数十页财报进行信息抽取、衍生指标计算与深度分析,百万 token 级别的长上下文窗口让这类复杂任务无需拆分,一次性流畅完成。

这些技术特性转化为明确的商业价值:一方面,架构优化直接降低了大模型单位请求的算力开销,让企业在同等硬件条件下支持更高并发,大幅降低 AI 功能集成的门槛,解决了规模化部署的成本痛点;另一方面,百万 token 的超长上下文处理能力,拓展了大模型在长篇幅法律文书解析、科研文献批量梳理、企业级文档分析等场景的可用性;而模型在多步推理、跨段落信息整合上的优势,更成为构建企业级智能体、知识处理自动化系统的稳定技术基础。

行业新信号:跳出参数竞赛,回归架构进化的本质

此次蚂蚁百灵两大万亿模型的发布,并非单一的产品更新,更代表了蚂蚁在大模型领域的完整布局:2026 年 2 月,蚂蚁接连开源原生全模态模型 Ming-flash-2.0、扩散语言模型 LLaDA2.1、思考模型 Ring-2.5-1T 与旗舰即时模型 Ling-2.5-1T,形成了覆盖多模态感知、语言生成、深度推理、即时响应的模型矩阵,各模型互为补充、协同进化,稳居国内大模型行业第一梯队,而全系列开源的策略,也让蚂蚁成为 AI 开源生态中不可忽视的新力量。

站在行业视角,Ling 2.5 架构的成功落地,传递出一个重要信号:架构创新已成为大模型演进的核心变量,相较于单纯的参数堆砌,从底层架构出发的优化,能带来推理效率、上下文处理能力、部署成本的系统性提升,重新定义大模型的能力边界。当月之暗面、蚂蚁等企业纷纷在混合线性注意力等架构领域实现突破,大模型行业正从 “参数竞赛” 的同质化内卷,转向 “架构创新” 的差异化竞争。

未来,随着架构技术的持续迭代、开源生态的不断繁荣,大模型的技术路线将更加多元,开发者也将拥有更灵活的工具组合应对不同场景的挑战。而真正的大模型竞争力,终将回归到技术创新的本质 —— 用更高效的架构,实现更强大的能力,让 AI 技术真正落地于千行百业。

蚂蚁这波架构创新确实够硬核,效率提升三倍的同时还压了显存,关键在数学和长文本任务上表现还这么顶。

这个架构改进确实挺实用的

这个思路有点意思啊

蚂蚁这架构有点意思

这个架构思路确实挺实在的

这架构优化有点意思啊,居然真能在万亿参数上把效率拉起来。不过半夜看到这种硬核技术贴,脑子已经快转不动了。

看起来效率提升很明显嘛

架构优化真能提升效率