国产大模型再迎重磅突破!印奇出任阶跃星辰董事长后,首款力作 Step 3.5 Flash 震撼开源。这款模型在数学推理、代码生成和智能体任务上性能直逼闭源模型,更实现与六大国产 AI 芯片的深度适配,为本土 AI 产业发展注入强劲动力。
继完成超 50 亿元 B + 轮融资、旷视科技联合创始人印奇正式挂帅后,阶跃星辰火速亮出硬核成果 ——Step 3.5 Flash 开源基座模型正式上线。这款被称为阶跃星辰迄今最强的开源模型,凭借在 Agent 场景和数学任务上的卓越表现,迅速引爆 AI 圈。
此次融资由华勤、腾讯等知名企业参投,而 Step 3.5 Flash 的发布,正是印奇履新后在开源模型领域的首次重磅出击,标志着阶跃星辰开启全新发展阶段。
在智能密度的比拼中,Step 3.5 Flash 展现出碾压级优势。它以约 2000 亿参数量,斩获 81.0 的智能密度高分,位居所有模型之首。更值得一提的是,在单请求代码类任务中,其推理速度峰值可达350TPS,兼顾高性能与高效率。
为实现这一突破,Step 3.5 Flash 采用了稀疏 MoE 架构。尽管模型总参数量高达 1960 亿,但单个 token 仅需激活约 110 亿参数,在保障模型能力的同时,大幅提升了推理效率。
国产化适配方面更是亮点十足,华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥六大国产 AI 芯片厂商,已率先完成对该模型的深度适配,为模型在本土硬件生态的落地扫清了障碍。
开源地址
GitHub:https://github.com/stepfun-ai/Step-3.5-Flash/tree/main
Hugging Face:https://huggingface.co/stepfun-ai/Step-3.5-Flash
一、性能狂飙!逼近闭源模型,多项测试名列前茅
Step 3.5 Flash 的实力,在各项权威基准测试中展露无遗。
数学推理能力惊艳
在 AIME 2025、IMOAnswerBench、HMMT 2025 等数学竞赛级任务中,Step 3.5 Flash 分别拿下 97.3、88.8、96.2 的高分,均位列第二。而当开启 **Parallel Thinking(并行思考)** 模式后,其性能直接跃居榜首,展现出超强的解题潜力。
代码生成能力突出
在 LiveCodeBench-V6 测试中,模型取得 86.4 的分数,排名第三。开启并行思考后,性能仅次于 Gemini 3.0 Pro,足以应对复杂的编程需求。
智能 Agent 能力领先
在智能体专属测试中,Step 3.5 Flash 同样表现亮眼:BrowseComp 测试得分 69.0,仅次于 kimi K2.5;xbench-DeepSearch 测试得分 54.0,仅次于 GPT-5.2 xhigh,具备处理复杂、长链条任务的强大能力。
核心技术加持,兼顾效率与实用性
除了架构创新,Step 3.5 Flash 还搭载了多项黑科技:
-
三路多 Token 预测(MTP-3)技术:针对长文本处理场景优化,典型场景下实现每秒 100-300 个 token 的生成吞吐量,代码任务中峰值达 350TPS。
-
混合注意力机制:采用 3:1 滑动窗口注意力(SWA)比例,每层全注意力层搭配三层 SWA 层,在支撑 256K 超长文本理解与生成的同时,降低冗余计算开销。
-
强化学习框架:专为智能体任务构建,支持持续自我改进,适配更复杂的实际应用场景。
此外,模型在硬件兼容性上也做了优化,可在 Mac Studio M4 Max、NVIDIA DGX Spark 等高端消费级硬件上安全运行,兼顾数据私密性与性能。
二、实测体验:数学难题秒解,一句话生成可视化平台
理论性能强悍,实际表现同样令人惊喜。我们对 Step 3.5 Flash 进行了上手测试,解锁了它的多项实用技能。
数学推理:专治各种 “不服”
面对 “9.9 和 9.11 谁大” 这个难倒众多大模型的经典问题,Step 3.5 Flash 几乎瞬间给出答案,并附上清晰的推理过程:将 9.9 转化为 9.90,对比小数部分 0.90 与 0.11,轻松得出 9.9 更大的结论,逻辑严谨,通俗易懂。
面对更复杂的数学题,比如计算等差数列求和、立方和、阶乘和等混合运算,模型也能在无外部工具辅助的情况下,快速给出准确结果,步骤清晰可追溯。
智能体编程:自然语言变可视化平台
在编程领域,Step 3.5 Flash 更是展现出 “魔法级” 能力。只需输入一段文字提示词,它就能自动生成功能完备的可视化平台。
-
模拟海浪平台:生成的平台支持调节海浪频率、形态和摄像头位置,效果完全符合预期。
-
气象情报仪表盘:基于 “飞行驾驶舱风格三维地球可视化” 的需求,模型构建出搭载 WebGL 2.0 引擎的系统,可实时处理 15000 个动态节点及 WebSocket 遥测数据流,展现出低延迟数据处理与高性能地理空间可视化能力。
多智能体协作:复杂任务分工明确
Step 3.5 Flash 原生支持多智能体架构,由一个主智能体统筹全局,通过自主规划和动态路由协调任务。它会派遣 “搜索”“验证” 等子智能体并行工作,再由 “总结” 智能体整合结果,生成结构化反馈。
例如在回答 “某物理学家的身份” 这一复杂问题时,多智能体团队分工协作,检索信息、验证事实、汇总推理,最终精准锁定目标人物,展现出堪比人类专家的分析能力。
端云结合:比价、查信息一键搞定
模型还支持端云协同模式,简化本地执行流程。比如用户提出 “对比 Mac Mini M4 在各平台价格” 的需求,云端主智能体会将任务拆解为淘宝、京东、拼多多三个子任务,指导本地端抓取数据,最终汇总结果并推荐最低价平台,大幅提升任务成功率。
三、行业风向标:Agent 能力成大模型竞争新战场
Step 3.5 Flash 的发布,并非孤例。此前月之暗面发布的 Kimi K2.5,同样聚焦智能体能力提升,这预示着Agent 已成为大模型竞争的核心赛道。
智能体要求模型具备深度逻辑推理、任务拆解、规划执行和工具调用能力,对模型的 “大脑” 性能提出更高要求。而阶跃星辰官方透露,Step 4 模型已在训练中,且同样定位为 Agent 基础模型,持续深耕这一赛道。
随着技术迭代加速,大模型正从 “能说会道” 向 “能办事、办成事” 转变,催生更强大的生产力工具。而 Step 3.5 Flash 与国产芯片的深度适配,也为本土 AI 产业的自主可控发展提供了新的可能。
结语:开源模型助力国产 AI 弯道超车
从技术突破到生态适配,Step 3.5 Flash 的发布,不仅展现了阶跃星辰的研发实力,更彰显了国产大模型的发展潜力。在印奇的带领下,这家年轻的企业正以开源为抓手,推动 AI 技术的普及与落地。
未来,随着智能体技术的不断成熟,我们有望看到更多基于国产大模型的创新应用,在千行百业中释放价值,助力中国 AI 产业实现弯道超车。



