10B 激活干翻头部模型!MiniMax M2.5 硬核发布:性能对标 Opus 4.6,成本仅 1/20!

2026 年 2 月,MiniMax 凌晨低调发布全新模型 M2.5,一经亮相便凭炸裂的技术参数和实测表现惊艳行业。这款模型藏着官方未披露的核心亮点 —— 基座 229B 参数,激活仅 10B,却在编程、搜索、办公等多维度 benchmark 中跻身全球第一梯队,甚至在多项榜单拿下第一,成为头部旗舰模型中参数规模最小、性价比最高的存在,堪称国产大模型的又一硬核突破。

核心参数藏惊喜,轻量化却有顶级战力

从 HuggingFace 公开的 M2.5 配置文件可见,这款模型在架构设计上颇具巧思:隐藏层尺寸 3072、62 层隐藏层、48 个注意力头,搭配 256 个本地专家、每 token 调用 8 个专家,还采用 float8 量化配置,兼顾性能与推理效率。而最核心的229B 基座 + 10B 激活设计,让其成为第一梯队中罕见的轻量化旗舰,私有化部署时的显存占用和推理能效比优势显著,为企业落地扫清硬件门槛。

全维度 benchmark 霸榜,多赛道登顶头部

M2.5 的实力不靠参数堆砌,而靠实打实的评测数据说话,在编程、搜索、工具调用、办公等核心赛道全面对标 Claude Opus 4.6、GPT-5.2 等国际顶尖模型,多项指标拿下行业第一:

  • 编程能力封神:SWE-Bench Verified 达 80.2%,与 Opus 4.6 基本持平;Multi-SWE-Bench 以 51.3% 登顶行业第一;多语言编程拿下全行业最高,覆盖 Go、C++、Rust、Python 等 10 余种编程语言,在 Droid、OpenCode 等不同脚手架下依旧表现稳定,泛化性拉满。

  • 搜索与工具调用顶尖:BrowseComp (w/ctx) 达 76.3%,在自建的真实专业搜索评测集 RISE 中表现亮眼;相比上一代 M2.1,用少 20% 的搜索轮次拿到更好结果,模型学会了用更短路径逼近答案,效率大幅提升。

  • 办公场景能力跃升:在 GDPval-MM、MEWC、金融建模等评测中表现领先,对比主流模型平均胜率 59.0%。针对 Word 排版、PPT 编辑、Excel 金融建模等办公需求做了专项优化,融入金融、法律、社科等行业隐性知识,落地实用性拉满。

此外,M2.5 在 VIBE-Pro(全栈项目评测)中与 Opus 4.5 表现相当,能完成从 0 到 1 的系统设计、1 到 10 的开发、90 到 100 的代码评审全流程工作,覆盖 Web、Android、iOS、Windows 全端,真正实现全栈编程能力。

极致性价比,Token 经济学做到行业最优

MiniMax 为 M2.5 推出两个能力完全一致的版本,仅速度和定价不同,且均支持缓存,价格直接打到国际头部模型的 1/10~1/20,堪称大模型领域的 “价格屠夫”:

  • M2.5-Lightning:100 TPS,每百万 token 输入 0.3 美金、输出 2.4 美金;

  • M2.5:50 TPS,价格再砍半,每百万 token 输入 0.3 美金、输出 1.2 美金。

换算成具象成本,M2.5-Lightning 每秒输出 100token 时,连续工作 1 小时仅需 1 美金;50TPS 版本仅需 0.3 美金,1 万美金可支撑一个 Agent 连续运行 4 年。跑完一整套 SWE-Bench Verified 评测,其单任务总成本仅为 Opus 4.6 的 10%,彻底打破 “大模型落地成本高” 的桎梏,让企业敢把 Agent 长时间部署在各类业务场景中。

能力涌现超预期,训练与执行双提效

M2.5 的惊喜不仅在于冰冷的评测数据,更在于训练中涌现的自主 “写 Spec” 能力:模型动手写代码前,会自动从架构师视角拆解功能、设计结构和 UI,完成完整的规划后再落地开发,这一行为并非人工设计,而是模型自主演化的结果,让代码开发的逻辑性和完整性大幅提升。

而在训练与执行效率上,M2.5 更是双向突破:

  1. 训练覆盖超全面:在超 20 万个真实环境中完成训练,能承接修 bug、系统设计、功能迭代、代码评审等全流程开发工作;

  2. 执行速度大提升:相比 M2.1,完成 SWE-Bench 任务速度提升 37%,端到端运行时间从 31.3 分钟降至 22.8 分钟,与 Opus 4.6(22.9 分钟)几乎持平,且速度变快的同时,token 消耗还从 3.72M 降至 3.52M,做到快且省;

  3. 迭代速度行业第一:从 M2 到 M2.1 再到 M2.5,仅用 108 天完成三次版本迭代,其在 SWE-Bench Verified 上的进步曲线斜率,远超 Anthropic、OpenAI、Google 的同类型模型,成为行业迭代最快的大模型系列。

核心技术架构加持,Agent 泛化性拉满

M2.5 的强悍表现,背后是 MiniMax 自研的核心技术框架支撑,从训练到推理实现全链路优化:

  1. Forge 原生 Agent RL 框架:通过中间层完全解耦训推引擎和 Agent,支持任意 Agent 脚手架接入,让模型在不同编程工具、Agent 环境中的泛化性大幅提升,换脚手架依旧能保持顶级表现;

  2. CISPO 算法保障稳定性:解决 MoE 模型训练的稳定性问题,搭配 Process Reward 实现全链路监控,并以真实任务耗时作为 Reward,平衡模型效果与执行速度;

  3. 训练效率 40 倍加速:通过树状合并样本的技术,让模型训练效率提升约 40 倍,为快速迭代打下技术基础。

落地生态成熟,开源 + 内部验证双保障

MiniMax M2.5 并非 “实验室产品”,而是经过内部全面验证的实用型模型:目前公司内部研发、产品、销售、HR、财务等全部门已全面上线 M2.5,30% 的整体任务由模型自主完成,编程场景中 80% 的新提交代码由模型生成,充分验证了其在真实办公场景的实用性。

在产品生态上,MiniMax Agent 打造了标准化的 Office Skills,MAX 模式下可根据文件类型自动加载对应能力,用户还能结合行业经验创建可复用的 “专家”,目前平台已有超 1 万个用户自定义专家,生态丰富度持续提升。更重要的是,M2.5 的模型权重已在 HuggingFace 开源,支持本地部署,为企业私有化落地、二次开发提供了便利。

国产模型集体爆发,M2.5 树立轻量化标杆

此次 M2.5 的发布,恰逢春节前国产大模型密集更新期,GLM-5、DeepSeek 等模型相继升级,国产大模型正以肉眼可见的速度逼近甚至赶超国际顶尖水平。而 MiniMax M2.5 则凭借 **“轻量化激活 + 顶级性能 + 极致性价比”** 的组合,为行业树立了新的标杆 —— 大模型的竞争不再是单纯的参数堆砌,而是效率、性能、成本的综合比拼。

从 10B 激活参数实现对标 Opus 4.6 的战力,到把 Agent 落地成本压到行业新低,M2.5 让大模型真正走进千行百业的愿景变得更加清晰。而 MiniMax 透露后续还将发布技术博客详解 RL scaling,这款硬核模型的后续进化,值得整个行业期待。

附:M2.5 与主流模型多维度 benchmark 对比

表格

Benchmark MiniMax M2.5 MiniMax M2.1 Claude Sonnet 4.5 Claude Opus 4.5 Claude Opus 4.6 Gemini 3 Pro GPT-5.2 (thinking)
AIME25 86.3 83.0 88.0 91.0 95.6 96.0 98.0
GPQA-D 85.2 83.0 83.0 87.0 90.0 91.0 90.0
HLE w/o tools 19.4 22.2 17.3 28.4 30.7 37.2 31.4
SciCode 44.4 41.0 45.0 50.0 52.0 56.0 52.0
IFBench 70.0 70.0 57.0 58.0 53.0 70.0 75.0
AA-LCR 69.5 62.0 66.0

这参数设计真巧妙

229B基座才激活10B这设计太精妙了

这价格也太香了吧

国产模型这次真的可以啊

轻量化设计还能保持顶级性能确实厉害

这参数配置真巧妙 性价比太香了

这数据看着确实有点东西。不过半夜看到这种新闻总感觉不踏实,参数再强也得实际用起来才知道稳不稳定。

这性能参数确实够硬核,国产模型现在真是越做越强了。不过实际落地还是得看长期稳定性,我先观望一阵。

参数不多但效果真不错

我去 这价格也太狠了 直接打骨折啊