2026 年 2 月,MiniMax 凌晨低调发布全新模型 M2.5,一经亮相便凭炸裂的技术参数和实测表现惊艳行业。这款模型藏着官方未披露的核心亮点 —— 基座 229B 参数,激活仅 10B,却在编程、搜索、办公等多维度 benchmark 中跻身全球第一梯队,甚至在多项榜单拿下第一,成为头部旗舰模型中参数规模最小、性价比最高的存在,堪称国产大模型的又一硬核突破。
核心参数藏惊喜,轻量化却有顶级战力
从 HuggingFace 公开的 M2.5 配置文件可见,这款模型在架构设计上颇具巧思:隐藏层尺寸 3072、62 层隐藏层、48 个注意力头,搭配 256 个本地专家、每 token 调用 8 个专家,还采用 float8 量化配置,兼顾性能与推理效率。而最核心的229B 基座 + 10B 激活设计,让其成为第一梯队中罕见的轻量化旗舰,私有化部署时的显存占用和推理能效比优势显著,为企业落地扫清硬件门槛。
全维度 benchmark 霸榜,多赛道登顶头部
M2.5 的实力不靠参数堆砌,而靠实打实的评测数据说话,在编程、搜索、工具调用、办公等核心赛道全面对标 Claude Opus 4.6、GPT-5.2 等国际顶尖模型,多项指标拿下行业第一:
-
编程能力封神:SWE-Bench Verified 达 80.2%,与 Opus 4.6 基本持平;Multi-SWE-Bench 以 51.3% 登顶行业第一;多语言编程拿下全行业最高,覆盖 Go、C++、Rust、Python 等 10 余种编程语言,在 Droid、OpenCode 等不同脚手架下依旧表现稳定,泛化性拉满。
-
搜索与工具调用顶尖:BrowseComp (w/ctx) 达 76.3%,在自建的真实专业搜索评测集 RISE 中表现亮眼;相比上一代 M2.1,用少 20% 的搜索轮次拿到更好结果,模型学会了用更短路径逼近答案,效率大幅提升。
- 办公场景能力跃升:在 GDPval-MM、MEWC、金融建模等评测中表现领先,对比主流模型平均胜率 59.0%。针对 Word 排版、PPT 编辑、Excel 金融建模等办公需求做了专项优化,融入金融、法律、社科等行业隐性知识,落地实用性拉满。
此外,M2.5 在 VIBE-Pro(全栈项目评测)中与 Opus 4.5 表现相当,能完成从 0 到 1 的系统设计、1 到 10 的开发、90 到 100 的代码评审全流程工作,覆盖 Web、Android、iOS、Windows 全端,真正实现全栈编程能力。
极致性价比,Token 经济学做到行业最优
MiniMax 为 M2.5 推出两个能力完全一致的版本,仅速度和定价不同,且均支持缓存,价格直接打到国际头部模型的 1/10~1/20,堪称大模型领域的 “价格屠夫”:
-
M2.5-Lightning:100 TPS,每百万 token 输入 0.3 美金、输出 2.4 美金;
-
M2.5:50 TPS,价格再砍半,每百万 token 输入 0.3 美金、输出 1.2 美金。
换算成具象成本,M2.5-Lightning 每秒输出 100token 时,连续工作 1 小时仅需 1 美金;50TPS 版本仅需 0.3 美金,1 万美金可支撑一个 Agent 连续运行 4 年。跑完一整套 SWE-Bench Verified 评测,其单任务总成本仅为 Opus 4.6 的 10%,彻底打破 “大模型落地成本高” 的桎梏,让企业敢把 Agent 长时间部署在各类业务场景中。
能力涌现超预期,训练与执行双提效
M2.5 的惊喜不仅在于冰冷的评测数据,更在于训练中涌现的自主 “写 Spec” 能力:模型动手写代码前,会自动从架构师视角拆解功能、设计结构和 UI,完成完整的规划后再落地开发,这一行为并非人工设计,而是模型自主演化的结果,让代码开发的逻辑性和完整性大幅提升。
而在训练与执行效率上,M2.5 更是双向突破:
-
训练覆盖超全面:在超 20 万个真实环境中完成训练,能承接修 bug、系统设计、功能迭代、代码评审等全流程开发工作;
-
执行速度大提升:相比 M2.1,完成 SWE-Bench 任务速度提升 37%,端到端运行时间从 31.3 分钟降至 22.8 分钟,与 Opus 4.6(22.9 分钟)几乎持平,且速度变快的同时,token 消耗还从 3.72M 降至 3.52M,做到快且省;
-
迭代速度行业第一:从 M2 到 M2.1 再到 M2.5,仅用 108 天完成三次版本迭代,其在 SWE-Bench Verified 上的进步曲线斜率,远超 Anthropic、OpenAI、Google 的同类型模型,成为行业迭代最快的大模型系列。
核心技术架构加持,Agent 泛化性拉满
M2.5 的强悍表现,背后是 MiniMax 自研的核心技术框架支撑,从训练到推理实现全链路优化:
-
Forge 原生 Agent RL 框架:通过中间层完全解耦训推引擎和 Agent,支持任意 Agent 脚手架接入,让模型在不同编程工具、Agent 环境中的泛化性大幅提升,换脚手架依旧能保持顶级表现;
-
CISPO 算法保障稳定性:解决 MoE 模型训练的稳定性问题,搭配 Process Reward 实现全链路监控,并以真实任务耗时作为 Reward,平衡模型效果与执行速度;
-
训练效率 40 倍加速:通过树状合并样本的技术,让模型训练效率提升约 40 倍,为快速迭代打下技术基础。
落地生态成熟,开源 + 内部验证双保障
MiniMax M2.5 并非 “实验室产品”,而是经过内部全面验证的实用型模型:目前公司内部研发、产品、销售、HR、财务等全部门已全面上线 M2.5,30% 的整体任务由模型自主完成,编程场景中 80% 的新提交代码由模型生成,充分验证了其在真实办公场景的实用性。
在产品生态上,MiniMax Agent 打造了标准化的 Office Skills,MAX 模式下可根据文件类型自动加载对应能力,用户还能结合行业经验创建可复用的 “专家”,目前平台已有超 1 万个用户自定义专家,生态丰富度持续提升。更重要的是,M2.5 的模型权重已在 HuggingFace 开源,支持本地部署,为企业私有化落地、二次开发提供了便利。
国产模型集体爆发,M2.5 树立轻量化标杆
此次 M2.5 的发布,恰逢春节前国产大模型密集更新期,GLM-5、DeepSeek 等模型相继升级,国产大模型正以肉眼可见的速度逼近甚至赶超国际顶尖水平。而 MiniMax M2.5 则凭借 **“轻量化激活 + 顶级性能 + 极致性价比”** 的组合,为行业树立了新的标杆 —— 大模型的竞争不再是单纯的参数堆砌,而是效率、性能、成本的综合比拼。
从 10B 激活参数实现对标 Opus 4.6 的战力,到把 Agent 落地成本压到行业新低,M2.5 让大模型真正走进千行百业的愿景变得更加清晰。而 MiniMax 透露后续还将发布技术博客详解 RL scaling,这款硬核模型的后续进化,值得整个行业期待。
附:M2.5 与主流模型多维度 benchmark 对比
表格
| Benchmark | MiniMax M2.5 | MiniMax M2.1 | Claude Sonnet 4.5 | Claude Opus 4.5 | Claude Opus 4.6 | Gemini 3 Pro | GPT-5.2 (thinking) |
|---|---|---|---|---|---|---|---|
| AIME25 | 86.3 | 83.0 | 88.0 | 91.0 | 95.6 | 96.0 | 98.0 |
| GPQA-D | 85.2 | 83.0 | 83.0 | 87.0 | 90.0 | 91.0 | 90.0 |
| HLE w/o tools | 19.4 | 22.2 | 17.3 | 28.4 | 30.7 | 37.2 | 31.4 |
| SciCode | 44.4 | 41.0 | 45.0 | 50.0 | 52.0 | 56.0 | 52.0 |
| IFBench | 70.0 | 70.0 | 57.0 | 58.0 | 53.0 | 70.0 | 75.0 |
| AA-LCR | 69.5 | 62.0 | 66.0 |


