2100 亿市值爆款!MiniMax M2.5 颠覆开源格局,性能比肩 Opus 4.6 价格仅 1/20!

2026 年 2 月 13 日,国产 AI 迎来重磅突破 ——MiniMax M2.5 正式发布,这款开源大模型以 “性能追平旗舰、价格击穿底线” 的颠覆性表现,引爆全球开发者社区。发布当日,MiniMax 股价暴涨 16.2%,总市值一度飙升至 2108 亿港元,创下历史新高。作为首个超越 Claude Sonnet 的开源模型,M2.5 在编码、办公、深度研究等核心场景表现比肩 Claude Opus 4.6,而成本仅为后者的 1/20,彻底改写了开源与闭源模型的竞争规则。

OpenClaw 之父 Peter Steinberger 等行业大咖纷纷盛赞,称其 “性能与 Opus 4.6 相当,价格却低 20 倍”。这款激活参数量仅 10B 的轻量化旗舰模型,不仅刷新了全行业性价比纪录,更证明了开源模型已具备与顶级闭源模型同台竞技的实力,标志着 AI 行业正式进入 “能力平权” 时代。

性能价格双颠覆,开源模型首次追平旗舰闭源

MiniMax M2.5 的核心突破,在于实现了 “性能不打折、成本大腰斩” 的双重颠覆。在关键的 SWE-bench Verified 编码基准测试中,M2.5 取得 80.2% 的高分,与 Claude Opus 4.6 的 80.8% 几乎持平,而价格却相差百倍 —— 输入每 100 万 Token 仅需 0.3 美元,输出每 100 万 Token 仅 1.2 美元,远低于 Opus 4.6 的 30 美元输入价和 150 美元输出价。

在 OpenHands 的综合基准测试中,M2.5 以 52.72 分位列第四,成为首个超越 Claude Sonnet(50.22 分)的开源模型,仅落后于 Claude Opus 4.6、GPT-5.2 Codex 等少数顶级闭源模型。更令人惊叹的是,其推理速度达到 Claude Opus 4.6 的 3 倍,支持 100 TPS 的超高吞吐量,1 美元即可运行 1 小时,彻底打穿了模型使用的成本底线。

作为第一梯队中参数最小的旗舰模型,M2.5 的激活参数量仅为 10B,在私有化部署、显存占用及推理能效比上具备压倒性优势,让普通开发者也能在本地设备上运行旗舰级 AI 模型。发布后市场需求激增,MiniMax 团队不得不紧急扩容以应对流量峰值,足见其受欢迎程度。

全场景实测封神,编程办公研究样样精通

经过多维度实测验证,MiniMax M2.5 在编程开发、数字化办公、深度研究等核心场景均展现出行业顶尖水平,泛化能力与实用价值远超同类模型。

编程能力:从算法题到系统优化全覆盖

在编程场景中,M2.5 对代码结构、工程上下文的理解极为稳定,生成的代码可直接落地,几乎无需额外返工。面对 LeetCode Hard 难度的 “寻找两个正序数组的中位数” 问题,它仅用 20 秒就给出时间复杂度 O (log (min (m,n))) 的最优解,执行效率击败 100% 对手,而 Claude Opus 4.6 给出的算法在时间和空间复杂度上均稍逊一筹。

针对真实开发场景,M2.5 展现出极强的问题拆解与重构能力。面对用户行为日志系统的代码优化需求,它不仅精准指出原代码缺乏错误处理、内存效率低、无类型提示等 5 大生产环境问题,还在不改变对外行为的前提下完成重构,并提出分布式流式处理的系统级优化方案,涵盖内存控制、并行计算、存储架构等多个维度,展现出资深工程师的专业素养。

此外,M2.5 在 3D 开发、前端网站生成等场景也表现惊艳 —— 仅用一个 HTML 文件就实现了完整的 3D 卡丁车竞速游戏,画面流畅、逻辑清晰;生成的豪华太空旅游网站完全符合 Awwwards 级设计标准,实现了高清视频展示、惯性滚动、磁吸光标等复杂交互效果。

办公场景:高阶 Excel 处理堪比数据分析师

在数字化办公场景,M2.5 的 Excel 处理能力堪称 “专业级”。面对包含日期格式混乱、销售数据异常、重复订单等脏数据的高难度表格,它按要求完成了数据清洗、跨表关联、字段计算、分析汇总等全流程操作,精准识别并处理了缺失值、负数、重复项等异常情况。

在跨表关联环节,它采用左连接方式从产品表和客户表补充相关字段,并清晰解释了选择逻辑;计算销售额和毛利时,自动将退货订单销售额归零,确保数据准确性;最终按 “地区 x 产品类别” 完成汇总,并指出办公类产品是毛利率最低的类别,还判断该数据不适合直接用于管理层汇报,体现出极强的业务理解与风险意识。

面对 “整理 2019-2024 年福布斯全球亿万富翁前十排名” 的任务,M2.5 精准抓取每年度排名、姓名、净资产、财富来源、年龄等关键信息,以规范的 Excel 表格呈现,数据准确且结构清晰,完全胜任高阶数据整理工作。

深度研究:逻辑推理与长文本处理双在线

M2.5 的深度研究能力同样令人惊喜。在针对 OpenClaw 的专项研究中,它严格遵循 “信息溯源、概念解析、技术拆解、应用评估” 的研究框架,明确区分已知事实与合理推断,标注信息可信度,生成的报告逻辑严谨、层次分明,展现出真正的批判性思考与因果推理能力。

在长文本处理测试中,M2.5 成功解读了《数学分析原理》(Rudin 著)这本高难度教材,为每章精准提炼核心概念,用 “阅兵式类比一致收敛”" 按面额分类数钱类比勒贝格积分 “等生动比喻帮助初学者理解抽象数学知识,还指出了” 偏导数存在不等于可微 “等经典误区,语言风格轻松自然,完全达到” 学长讲课 " 的效果,为数学系学生提供了高质量的学习辅助。

值得一提的是,M2.5 在逻辑测试中也表现出色。面对 “蒙古包到草原仅 5 米,遛马该走路还是骑马” 的趣味逻辑题,它 3 秒内就抓住 “遛马” 的核心目的,给出幽默且逻辑严谨的答案,而 Claude Opus 4.6 则未能识破题目本质,给出了常规化回答。

技术内核揭秘:Agent RL 打造极致性能

MiniMax M2.5 的惊艳表现,源于其基于 Agent RL(智能体强化学习)构建的完整技术体系,在框架、算法、工程层面形成闭环优化。

在框架层面,M2.5 采用原生 Agent RL 架构 Forge,通过中间层完全解耦底层训推引擎与 Agent,支持任意 Agent 接入,大幅提升了模型在工具生态中的泛化能力,同时实现约 40 倍的训练加速,兼顾性能与效率。

算法层面,团队沿用 MiniMax M1 的 CISPO 算法,保障了 MoE 模型在大规模强化学习训练中的稳定性;针对长上下文场景的信用分配难题,引入过程奖励机制对任务完成质量进行全链路监控;并将任务真实耗时纳入奖励函数,实现了模型效果与响应速度的最佳平衡。

工程层面,通过对思考链路的深度优化,M2.5 在保持 10B 轻量化参数的同时,实现了旗舰级的性能表现,其混合线性注意力架构在长序列推理中优势显著,随着生成长度增加,效率优势持续扩大,为低算力设备部署提供了可能。

行业意义:开源模型崛起,AI 能力全民平权

MiniMax M2.5 的发布,不仅是一次产品升级,更是 AI 行业发展的重要转折点。它证明了开源模型与闭源模型的能力差距已正式消失,顶级 AI 能力不再是少数企业的专属,而是走向全民可及。

对于行业而言,M2.5 的爆发标志着 AI 竞争从单纯的参数比拼、性能竞赛,转向性价比、场景适配性、生态兼容性的综合较量。当顶级能力成为标配,系统整合能力、产品化能力、真实场景理解深度将成为新的竞争焦点。

对于企业来说,M2.5 的高性价比与易部署特性,降低了 AI 应用的落地门槛,为数字化转型提供了低成本、高效率的解决方案,有望推动 AI 在更多中小企业的规模化应用。

对于开发者而言,这款开源模型的出现提供了前所未有的机会 —— 无需高昂成本即可使用旗舰级 AI 能力,无论是日常开发、学术研究还是创新探索,都能获得强大助力,加速创意落地。

正如行业观察人士所言,MiniMax M2.5 的发布开启了 AI 的 “能力平权” 时代。未来,随着开源生态的持续壮大,AI 技术将进一步下沉,赋能更多个体与组织,推动整个行业进入创新爆发的新阶段。

感觉开源模型越来越强了

这价格也太香了吧

M2.5这性价比绝了

开源模型真这么强了嘛

价格打下来真不错

我靠性价比直接起飞

国产AI真是越来越强了

性价比确实碾压啊

这价格也太香了吧