当大模型在数字世界掀起变革浪潮后,物理 AI 成为下一个必争的技术高地。而在自动驾驶之后,通用机器人正遭遇一道难以逾越的工程鸿沟 —— 真实物理世界开放、连续且因果约束极强,任务多样、交互对象不可穷尽,一旦失误,代价高昂。
行业达成新共识:数据堆砌的 Scaling Law 已触顶,通用机器人要实现规模化落地,必须先具备 **“理解、推演、评估物理世界”的能力。世界模型(World Model)及其进阶形态环境与动作统一建模架构(World-Action Model, WAM)**,就此成为物理 AI 的核心基础设施。
由上海交大系 “技术双子星” 何弢博士与廖文龙博士掌舵的酷哇科技,近期发布核心技术底座COOWA WAM 2.0 世界模型。这一升级,标志着机器人从 “机械模仿动作” 进化到 “主动规划推理”,完成了从 “执行者” 到 “思考者” 的关键跃迁。更振奋人心的是,凭借这项技术,酷哇科技已手握万台机器人订单,率先实现年度 EBITDA(息税折旧摊销前利润)回正,在具身智能赛道杀出重围。
一、 模仿学习的死胡同:为什么真实数据不够用了?
过去十年,深度学习的成功依赖于 “大规模真实数据驱动的自监督学习”,GPT 系列就是典型代表。但这套逻辑放到机器人领域,却陷入了分布外(OOD)陷阱。
语言系统的词汇和语法规则虽庞大但有限,新样本基本都在既有语义范围内。而物理世界完全不同 —— 环境状态与交互组合近乎无限,动作的后果无法通过历史数据简单推断。仅靠真实数据做模仿学习,存在一个致命缺陷:累积误差。
在长序列的多步决策中,微小的状态预测偏差或动作执行误差,会随着时间推移和环境反馈被不断放大,最终让系统偏离训练数据分布,陷入从未见过的 “未知区域”。一旦踏入这个区域,机器人行为失稳甚至彻底失效将不可避免。
更棘手的是,物理世界的不可逆性,让机器人无法像 AlphaGo 那样在真实场景中无限试错。高质量交互数据采集成本高、长尾场景复现难,筑起了物理 AI 的 **“数据长城”**。
解决这一困境的关键,是让机器人拥有反事实推演能力—— 在执行动作前,先在 “大脑” 里预演:“如果我这么做,世界会变成什么样?” 这正是 COOWA WAM 2.0 世界模型的核心价值。
二、 范式革命:从 “感知 - 执行” 到 “推演 - 决策”
传统机器人系统遵循 “感知→策略→控制” 的线性链路,本质上是一种高级 “条件反射”,无法预判动作的潜在后果。
而 COOWA WAM 2.0 带来了系统级的范式升级。它是一个可学习的神经模拟器,通过统一建模三大核心元素,赋予机器人 “思想实验” 的能力:
-
世界状态:对可观测的环境和物体进行精准表征;
-
动作候选:模拟机器人自身及周边物体的所有可能行为;
-
状态 - 动作 - 结果:建立三者之间的统计关联与因果演化规律。
在这套架构下,机器人不再盲目执行指令,而是先在虚拟空间推演不同动作的后果,再选择最优方案。这就像给机器人装上了 “大脑”,让它从 “凭经验做事” 升级为 “靠思考决策”。
四大技术支柱:让机器人既 “反应快” 又 “想得对”
为实现 “推演 - 决策” 能力,COOWA WAM 2.0 构建了四大核心模块,巧妙融合了 “快思考(直觉)” 与 “慢思考(推理)”:
-
基于语义的表征学习:机器人的 “视觉皮层”
低层的像素信息无法直接用于决策,机器人需要理解画面背后的语义。该模块利用图像 - 文本对齐技术(Masking + 对比学习),提取环境的高层语义特征,将复杂的视觉输入转化为可计算的环境表征。这不仅解决了感知信息过载的问题,更实现了跨任务、跨场景的泛化能力 —— 比如让环卫机器人的技术,能直接迁移到人形机器人身上。
-
基于视频生成的未来预测:物理世界的 “推演沙盒”
这是世界模型的核心模块,类似于 Sora 的视频生成能力,但更专注于动力学一致性。它通过对环境状态序列建模,学习物理规律和场景演化模式,能生成未来可能的动态场景。机器人可以在这个 “虚拟试验场” 里,零成本评估动作后果,提前规避风险,极大降低累积误差的影响。
-
直觉行动系统:快速响应的 “系统 1”
在开放环境中,机器人没有时间进行复杂的逻辑推理。直觉行动系统扮演 “快思考” 角色,基于环境表征和模仿学习经验,快速并行生成多组动作候选。面对突发状况时,它能像人类的直觉一样,瞬间给出合理应对方案,保证响应的实时性。
-
VLM 宏观约束:把控方向的 “系统 2”
直觉系统虽快,但容易 “想当然”,甚至违反物理常识。这时就需要视觉语言大模型(VLM) 扮演 “慢思考” 角色,承担宏观规划与因果约束的职责。它不直接生成底层控制信号,而是将任务目标转化为高层规则,对直觉系统的动作候选进行 “剪枝” 和优化,确保决策既高效又安全。
这种 “直觉生成 + VLM 约束” 的互补架构,让机器人既能快速反应,又能理性决策,完美平衡了效率与安全性。
三、 万台订单 + 盈利回正:技术落地的商业里程碑
对硬科技企业而言,技术突破只是第一步,商业闭环才是终极考验。
得益于 COOWA WAM 2.0 的高泛化能力和低边际部署成本,酷哇科技打破了具身智能领域 “定制化陷阱” 和 “规模化魔咒”。截至 2026 年 2 月,公司订单规模已从 2022 年的 10 亿元增长至 50 亿元,增幅超 5 倍,2026 年全系机器人交付量预计突破 1 万台,这一数字超过过去数年交付量的总和。
更具里程碑意义的是,酷哇科技率先实现年度 EBITDA 回正。这意味着,其通用机器人已从依赖资本输血的科研原型,蜕变为具备自我造血能力的工业级产品。酷哇科技联合创始人兼 COO 李柯宏表示:“公司已不需要通过烧钱换取规模,经营和盈利能力处于健康水平。”
目前,酷哇科技的机器人已进驻北京、上海、广州、深圳四大超一线城市,一线城市业务占比从 2022 年的不足 2% 提升至 2025 年的 25%。在全球化布局上,公司优先拓展新加坡、中东(阿布扎比、迪拜、利雅得)以及 “一带一路” 沿线亚洲一线城市 —— 这些地区普遍面临招工难、人力成本高的问题,对中国硬科技产品接受度高,支付意愿强。
四、 Robo City:用万台机器人构建城市新基建
技术和商业的双重突破,让酷哇科技有底气描绘一幅更宏大的未来图景 ——Robo City(机器人城市)。
在酷哇的构想中,未来城市里的数万台异构机器人,将不再是孤立的个体,而是通过 WAM 共享同一个 “世界认知” 的智能集群。这个集群主要由三类机器人构成:
-
L4 级无人小巴(Coobus):承担城市微循环接驳任务,打通出行 “最后一公里”;
-
城市管家机器人:穿梭于 CBD 和公园,化身流动智能交互终端,基于人流热力图主动提供服务,实现 “货找人” 的动态商业闭环;
-
泛具身服务机器人:在无人商超和园区内,自主完成货架盘点、补货,以及跨楼层物资垂直流转。
这些机器人将共同构成一套覆盖全城的物理智能体网络,像水电网一样,成为现代城市高效运转的新型基础设施。
五、 结语:物理 AI 的高光时刻,才刚刚开始
从技术层面看,COOWA WAM 2.0 的出现,让通用机器人摆脱了数据依赖的枷锁,真正具备了 “思考能力”;从商业层面看,万台订单和盈利回正,证明了物理 AI 规模化落地的可行性。
酷哇科技的成功,不仅是交大系科研成果转化的典范,更标志着物理 AI 行业从 “技术验证期” 迈入 “商业化爆发期”。当万台机器人穿梭在城市的大街小巷,当 WAM 在虚拟空间推演着城市的未来,我们有理由相信:物理 AI 重塑万亿城市基建的时代,已经到来。

