无需训练!理想汽车发现端侧 Scaling Law,算出最强 AI,智商跃升 20%!

当云端大模型冲刺 AGI 时,智能驾驶、具身智能等物理场景正被一个难题卡住:如何把庞大的大模型塞进资源受限的端侧芯片?2026 年 2 月,理想汽车 MindVLA 团队与国创决策智能技术研究所联合发布重磅论文,提出硬件协同设计扩展定律,给出了理论级破局方案 —— 无需训练,输入芯片参数即可算出最优模型架构,同等算力下模型智商跃升 19.42%,研发周期从数月压缩至一周。

这篇名为《Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs》的论文,标志着理想汽车从 “增程电动车代表” 向 “AI 公司” 的深度转型。其近两年的技术布局已形成闭环:自研 5nm 车规芯片马赫 100、开源操作系统星环 OS、自研基座大模型 MindVLA、端到端智驾全栈自研,而这一定律正是这场转型的核心注脚。

核心痛点:端侧 AI 的 “不可能三角”

智能驾驶等场景面临一个核心悖论:既希望车载 AI 聪明反应快,要求模型复杂;又受限于芯片的功耗、散热、内存,要求模型小巧高效。传统模式 “模型归模型、硬件归硬件”,AI 研究者设计模型后,工程师再想办法优化适配,如同给 F1 引擎配卡车底盘,性能大打折扣。

这背后是端侧 AI 的 “不可能三角”:

  • 高精度:模型越复杂越聪明,但占用资源多;

  • 低延迟:反应越快越安全(自动驾驶中 300 毫秒意味着高速盲开数米),但需精简模型;

  • 低资源:端侧芯片内存仅 4-16GB、算力 10-275TOPS,功耗严格受限。

而理想的 “硬件协同设计定律”,从根源上解决了模型与硬件的 “失配” 问题 —— 在设计模型之初就融入硬件能力,实现二者的深度协同。

核心逻辑:两大 “计算器”+ PLAS 框架,算出最优架构

理想团队的核心突破,是通过数学建模与联合优化,将 “试错训练” 变为 “精准计算”,核心分为三大环节:

1. 损失缩放定律:算模型 “有多聪明”

团队训练了 170 个不同架构的 Transformer 模型(每个用 100 亿 token 训练),覆盖密集型、MoE 混合专家等类型,层数 4-48、宽度 256-4096、MoE 专家数 1-64,最终拟合出精度预测公式。

该公式包含深度项、稀疏驱动项、基础容量项、KV-cache 项,能根据模型架构超参数(如网络深度、宽度),直接预测验证损失(损失越低越聪明),拟合精度高达 R²=0.975(训练集)和 R²=0.952(验证集),无需实际训练就能预判模型性能。

2. Roofline 延迟模型:算模型 “跑多快”

芯片的运行速度受两大因素限制:峰值计算能力(FLOPS,类似生产线速度)和内存带宽(类似物料供应速度)。理想团队基于经典 Roofline 模型,推导了 Transformer 端侧推理延迟的完整数学表达,首次系统建模 KV 缓存、MoE 路由等大模型特有负载对车载芯片的影响。

这个模型就像一个 “速度计算器”,输入模型与硬件参数,就能精准算出推理延迟,20 分钟内可评估 5 万 + 种架构配置,效率远超传统测试。

3. PLAS 框架:帕累托最优搜索,找到 “最优解”

团队开发 PLAS 框架(Pareto-optimal LLM Architecture Search),将损失建模与延迟建模结合,进行联合优化:给定芯片的算力、带宽、内存约束,自动找到 “损失最小、延迟不超标” 的最优架构,这些最优解构成的 “帕累托前沿”,是精度与速度的最佳平衡。

更硬核的是,在不同硬件约束下,最优模型架构参数存在闭合解—— 无需训练,输入芯片参数就能直接算出最优架构,彻底改变了端侧 AI 的开发模式。

三大定理:不同约束下的精准处方

论文推导出三大核心定理,覆盖端侧常见的三类场景,给出明确的最优架构设计规则:

定理一:延迟约束下的 “免费午餐”

当芯片速度是瓶颈、内存充裕(如高端车载平台),MoE 专家越多、每次激活越少越好。因为 MoE 中每个 token 仅激活 K 个专家计算,增加总专家数不影响延迟,但能提升模型容量。对自动驾驶 sub-50ms 极限延迟场景,建议采用 top-1 路由,内存允许范围内最大化专家池。

定理二:内存约束下的 “宽度 - 稀疏度定律”

当存储有限、速度够用(如 4-8GB 边缘设备),模型越宽,MoE 应越稀疏 —— 宽度每翻一倍,最优激活率下降约 2.3 倍。例如 2B 参数模型推荐每次激活 2 个、共 16 个专家;500M 参数模型需更密集的 MoE 配置,这些均为数学证明的最优解。

定理三:双重约束下的精确解

延迟和内存同时紧张(最常见场景),论文给出预填充、解码两阶段的精确闭合解,无论芯片约束如何组合,都能找到对应公式计算最优架构。

颠覆性发现:端侧 AI 的设计范式重构

除三大定理外,论文还揭示了多个违反直觉的设计原则,彻底颠覆云端模型的传统思路:

  1. MoE 全面主导:端侧 batch=1 场景下,帕累托最优设计 100% 是 MoE,无 Dense 模型,最优配置多为 8-16 个专家中激活 1-2 个;

  2. 宽而浅优于深而窄:内存带宽和缓存效率比理论 TOPS 更关键,最优架构深度通常 < 20 层,宽度显著增加;

  3. FFN 可激进压缩:最优 FFN 扩展比远低于传统 4×,甚至可低于 1×,要求芯片单元配比更灵活;

  4. 阶段需求不同:Prefill 阶段偏好少专家,Decode 阶段偏好最大化专家,芯片需支持动态资源分配;

  5. 量化增益亚线性:INT8 量化仅实现 1.3-1.6 倍加速(非理论 2 倍),根源在非线性算子,需硬件原生支持混合精度计算。

这些发现证明:没有通用芯片,只有场景最优芯片,最优架构与硬件参数深度绑定,“算法定义芯片” 成为必然。

实测验证:19.42% 智商碾压,研发效率飙升

理论需实践验证,团队在 NVIDIA Jetson Orin 端侧平台做了大规模测试:评估 1942 种候选架构,精选 170 个完整训练,以 Qwen2.5-0.5B(端侧广泛使用的开源模型)为基准,在相同延迟下对比协同设计架构。

结果震撼:

  • 基准模型困惑度 63.14,协同设计架构困惑度 50.88,困惑度降低 19.42%(困惑度越低越聪明);

  • 训练曲线全程领先,优势源于架构本身,而非随机波动;

  • 跨平台泛化性验证通过,在 Jetson Thor 平台同样表现优异。

更关键的是研发效率的飞跃:传统流程给新芯片选最优架构需数月反复训练调优,而用协同设计定律,6 步即可完成 —— 测量硬件参数→定义需求→确定约束→计算最优架构→小规模验证→全规模训练,全程仅需一周。

行业意义:从 “堆算力” 到 “榨算力”

如果说 OpenAI 的 Scaling Law 回答了 “模型为何越大越聪明”,理想的定律则回答了 “固定芯片上,模型怎么变最聪明”。二者殊途同归,都是用数学确定性消除 AI 发展的经验盲区。

这一定律彻底改变了智驾竞争的叙事:过去比 “谁芯片算力大”,现在比 “谁更懂用芯片”。100TOPS 的芯片若架构不匹配,效能利用率可能仅 30%,而协同设计能将其拉至理论上限,实现 “降维打击”。

对理想自身而言,这一定律与马赫 100 芯片(2026 年搭载于全新理想 L9)形成强力协同:马赫 100 单颗有效算力是英伟达 Thor-U 的 3 倍,双芯片有效算力达 5-6 倍,而定律能在芯片量产前就算出最优 VLA 架构,无需等待数月适配期。配合星环 OS 与 MindVLA 模型,理想形成 “芯片 - 定律 - 系统 - 模型” 的完整闭环,打造专为车载场景优化的 “算法原生芯片”。

未来展望:开源赋能全行业

摩尔定律放缓的当下,“协同设计定律” 开启了新曲线:不靠芯片晶体管翻倍,靠更聪明的架构设计提升智能。理想团队计划开源相关代码和评测协议,让汽车、机器人、IoT、移动端等全行业受益,为各类端侧芯片找到最优大模型架构。

真正的领先从来不是硬件堆砌,而是底层基础科学的突破。理想用数学规律重构端侧 AI 边界,不仅为自身智驾系统注入核心底气,也为行业提供了端侧大模型部署的科学方法论。在智能驾驶下半场,能定义底层规则的企业,终将主导全场景智能的未来。

论文地址

https://arxiv.org/abs/2602.10377

这定律有点意思
直接算出最优架构
不用瞎调参了

这个思路挺实用啊

算力终于不用浪费在瞎试上了

硬件直接决定模型上限啊

这个思路挺有意思的

MindVLA这个思路确实硬核

这个发现挺有意思

这定律太硬核了 直接从根源解决问题 端侧AI有救了