国产开源逆袭!SenseNova-MARS 碾压 GPT-5.2,成最强多模态推理模型!

国产 AI 再添重磅突破!1 月 29 日,商汤正式开源多模态自主推理模型 SenseNova-MARS(含 8B 和 32B 版本),一经发布就拿下多模态搜索与推理核心基准测试 SOTA。更令人惊喜的是,它在关键测试中性能超越 Gemini 3 Pro、GPT-5.2 等热门模型,成为首个支持动态视觉推理与图文搜索深度融合的 Agentic VLM 模型,彻底刷新开源多模态模型的能力上限。

目前,该模型的代码、数据集已完全开源,GitHub 地址:https://github.com/OpenSenseNova/SenseNova-MARS,社区开发者可直接上手体验。

一、核心能力:自主调用工具,复杂任务无需人工干预

SenseNova-MARS 的核心优势在于 “多步骤推理 + 多工具协作”,能像人类一样主动规划解题路径,彻底打破传统 VLM 工具调用孤立、推理割裂的痛点:

  1. 动态工具组合:可自主调用图像裁剪(放大细节)、文本搜索、图像搜索三大类工具,根据任务需求灵活切换。

  2. 复杂场景落地:识别赛车服微小 Logo 后,自动查询品牌成立年份、匹配车手出生年月并计算差值;从行业峰会照片中识别汽车标志、确认车型,再补充背景信息,全程无需人工介入。

  3. 超长链路处理:支持超过三种工具调用和超长步骤推理,能快速抓取图片中的精准信息(如公司成立年份、人物出生年月),验证假设并得出关键判断。

二、性能炸裂:多项测试超越 GPT-5.2,跨任务适应性拉满

在多模态核心基准测试中,SenseNova-MARS 展现出碾压级实力,尤其在搜索导向型任务中表现突出:

  1. 搜索能力登顶:32B 版本在 MMSearch(74.3 分)和 HR-MMSearch(54.4 分)测试中,双双超越 Gemini 3 Pro 和 GPT-5.2 等专有模型,在知识密集型场景和高分辨率感知场景中均实现均衡发挥。

  2. 跨任务适应性更强:8B 版本通过动态选择最优工具,比 Qwen3-VL-8B 更能适配不同场景,避免 “偏科”。

  3. 视觉理解能打:在 V Bench 和 HR-Bench 等高分辨率感知基准测试中,32B 版本性能优于 Qwen3-VL-235B-A22B 等模型,细粒度图像理解能力突出。

三、技术揭秘:双阶段训练 + 强化学习,解决收敛难题

SenseNova-MARS 基于 Qwen2.5-VL-7B-Instruct 构建,采用创新的双阶段流水线训练策略,确保模型能力稳定且强大:

  1. 第一阶段:系统框架训练(SFT)

    针对跨模态搜索推理数据稀缺的问题,搭建自动化数据合成引擎,挖掘跨网页实体逻辑,构建高复杂度多跳推理链路。同时通过闭环自洽性校验去除幻觉数据,让模型从一开始就学习真实复杂场景的解题逻辑。

  2. 第二阶段:强化学习(RL)

    对模型的决策行为(选对工具、步骤合理)给予奖励,错误则调整策略。引入 BN-GSPO 算法,平滑工具调用带来的优化波动,确保模型在简单题和复杂题中均能稳定进步,解决跨模态多工具训练的收敛难题。

四、产业价值:加速多领域 AI 落地,破解落地痛点

SenseNova-MARS 的闭环解题能力,正精准破解产业端多模态应用的核心痛点:

  • 工业质检:自动放大检测产品微小瑕疵,结合搜索工具验证标准,提升检测精度。

  • 金融风控:快速识别票据、合同中的关键信息,交叉验证背景数据,降低风险。

  • 传媒与科研:从赛事、峰会照片中提取关键信息,补充背景资料,辅助内容创作和研究验证。

这款国产开源模型的爆发,不仅展现了国内 AI 技术的硬实力,更给开发者提供了低成本探索多模态推理的强大工具。随着开源生态的持续完善,它有望在更多垂直领域实现落地,推动产业端 AI 应用效率的大幅提升。

国产模型越来越厉害了

商汤这波开源太顶了

商汤这波开源可以啊

国产模型这次确实挺能打的

这个开源模型确实挺厉害的

国产模型进步真快

大半夜刷到这个真给我看精神了,商汤这波开源太顶了,动态推理直接干翻GPT-5.2,国产模型现在这么猛了吗。

国产模型越来越厉害了