人类在做出动作前,大脑会提前「脑补」动作的全过程与结果,这种对未来的预测能力,是操控物理世界的核心认知能力。而让机器人拥有同样的具身世界模型,在行动前模拟并预演动作后果,成为具身智能领域的核心研究方向。
如今,中科第五纪联合中科院自动化所团队推出的BridgeV2W,凭借「具身掩码」这一创新设计,将机器人的坐标化动作转化为像素化的「动作剪影」,成功打通了大规模视频生成模型与机器人世界模型的技术鸿沟,让机器人真正学会了可靠地「预演未来」,也为通用具身智能的发展打下了坚实基础。
一、三大核心困境,卡住机器人的「预演能力」
借助 Sora、Wan 等视频生成模型的强大视觉先验,具身世界模型研究已取得显著进展,但视频生成模型与机器人系统的表征语言差异,让其落地面临三座难以逾越的大山:
-
动作与画面「语言不通」:机器人以关节角、末端位姿等坐标数值描述动作,而视频生成模型仅能识别像素画面,直接拼接动作向量缺乏空间硬连接,模型无法真正理解动作与画面的关联;
-
视角泛化能力极差:同一机器人动作在不同相机视角下的视觉呈现截然不同,现有方法仅能适配训练视角,换视角后预测画面极易崩塌、肢体错位,与真实场景的相机随机部署情况脱节;
-
跨机器人架构不通用:单臂、双臂、移动底盘等不同机器人的结构与运动模式差异巨大,现有方法需为每种机器人定制专属模型架构,无法构建统一的具身世界模型。
二、核心创新:具身掩码「动作剪影」,一举破解三大难题
BridgeV2W 的核心设计极具巧思:既然机器人的坐标语言与视频模型的像素语言存在鸿沟,那就把机器人动作直接「画」进像素画面里。研究团队提出具身掩码(Embodiment Mask),利用机器人的 URDF 模型和相机参数,将动作序列实时渲染为每帧图像上的二值「动作剪影」,精准标注机器人在画面中的位置与姿态,这一设计直接攻破了此前的三大核心困境:
-
动作 - 像素精准对齐:具身掩码是天然的像素级信号,与视频生成模型的输入空间完全匹配,无需模型猜测坐标含义,实现了动作与画面的硬连接;
-
天然适配任意视角:具身掩码会随当前相机视角动态生成,无论相机位置如何变化,动作与画面始终保持对齐,让模型拥有优秀的视角泛化能力;
-
跨具身机器人通用:只需为不同机器人提供对应的 URDF 模型,无需修改 BridgeV2W 的基础架构,就能生成适配的具身掩码,单臂、双臂机器人均可无缝复用。
在技术实现上,BridgeV2W 采用 ControlNet 式的旁路注入方式,将具身掩码作为条件信号融入预训练视频生成模型,在保留其强大视觉先验的同时,赋予模型理解机器人动作的能力。同时,为避免模型「偷懒」仅复现静态背景,研究团队还引入光流驱动的运动损失,引导模型聚焦于任务相关的动态区域,提升动作预演的准确性。
三、多维度实验验证:指标超 SOTA,跨平台 / 视角 / 场景均表现优异
研究团队在不同机器人平台、操作场景、相机视角下对 BridgeV2W 进行了系统性验证,其表现远超当前 SOTA 方法,充分证明了模型的有效性与泛化性。
1. DROID 数据集:单臂操作全指标领先
在大规模真实世界单臂机器人操作数据集 DROID 上,BridgeV2W 在 PSNR、SSIM、LPIPS、FVD 等核心视频生成指标上均大幅超越 IRASim、Cosmos、EVAC 等对比方法。尤其在未见视角和未见场景测试中,对比方法频繁出现画面崩塌、肢体错位,而 BridgeV2W 仍能生成物理合理、视觉连贯的未来预演视频,Mask-IoU 指标也保持领先,视角鲁棒性与场景泛化能力突出。
2. AgiBot-G1 数据集:双臂机器人无缝适配
针对与 DROID 自由度、运动模式截然不同的双臂人形机器人数据集 AgiBot-G1,BridgeV2W 无需修改任何模型架构,仅替换 URDF 模型并重新渲染具身掩码,就能实现无缝适配,且预演预测质量媲美单臂机器人场景,验证了其跨具身机器人的通用能力,是迈向通用具身世界模型的关键一步。
3. 下游任务:从「预演想象」到「实际行动」
BridgeV2W 并非单纯的视频生成模型,其预演能力可直接落地于机器人实际任务,实现从「想象」到「行动」的闭环:
-
策略评估:在世界模型中提前「试跑」不同动作策略,无需真实机器人反复试错,评估结果与真实任务成功率高度相关,大幅降低策略迭代成本;
-
目标图像操作规划:给定目标场景图像(如「将杯子放到盘子上」),模型能在预演空间中搜索出可行的机器人动作序列,实现从视觉目标到物理动作的精准规划。
四、关键亮点:解锁海量人类视频,兼顾可扩展性与准确性
BridgeV2W 的另一大突破,在于解决了具身世界模型训练的数据瓶颈问题—— 无需依赖精准标定的机器人数据,就能利用海量无标注的人类视频完成训练,真正实现了数据的规模化扩展。
模型采用「训练与推理分离」的设计思路:推理阶段,通过轻量几何信息(URDF + 相机参数)渲染「计算掩码」,保证动作预演的精准控制;训练阶段,无需任何几何标定,仅用 SAM 等分割模型提取的「分割掩码」就能提供有效监督,直接解锁互联网上海量的人类操作视频。
研究团队将 AgiBot-G1 机器人数据与无标定的 Ego4D FHO 第一人称手部操作视频混合训练,取得了惊人效果:仅用分割掩码训练,模型就能学到合理的运动规律;加入大量人类视频 + 少量机器人标定数据后,模型性能几乎媲美全量标定训练,证明人类视频中蕴含的动作先验,只需少量机器人数据就能完成「具身对齐」。
一句话总结,BridgeV2W 实现了训练靠「野生」人类视频扩规模,部署靠轻量几何信息保精度,完美兼顾了模型的可扩展性与准确性。
五、技术价值:开辟具身智能新路线,迎来三大核心红利
BridgeV2W 通过「视频生成模型 + 具身掩码」的组合,为可扩展的机器人世界模型开辟了全新技术路线,这一路线将让具身智能研究迎来三大核心红利:
-
启动机器人数据飞轮:互联网上的人类视频规模远超机器人标注数据数个数量级,BridgeV2W 让海量人类视频成为具身智能的训练数据,为构建机器人数据飞轮迈出关键一步;
-
自动继承视频生成技术红利:Sora、Wan、CogVideoX 等视频生成模型正以高速迭代,BridgeV2W 的架构设计使其能直接对接最新的视频生成底座,底座模型越强,机器人的预演能力就越精准;
-
筑牢通用具身智能基石:BridgeV2W 展现的跨机器人、跨视角、跨场景的泛化能力,解决了具身世界模型的通用性难题,为实现通用具身智能打下了坚实的技术基础。
六、总结与展望:机器人的「预演时代」已来
BridgeV2W 凭借具身掩码这一简洁而优雅的中间表征,成功架起了预训练视频生成模型与实用具身世界模型之间的桥梁,不仅破解了动作 - 像素对齐、视角鲁棒性、跨具身通用性三大核心难题,更重要的是,它为具身世界模型的规模化训练开辟了全新路径 —— 无需精准几何标定,直接利用海量人类视频完成训练。
当前 BridgeV2W 展现的能力,还只是机器人预演能力的「冰山一角」。未来,当视频生成底座模型的参数从十亿迈向千亿,当训练数据从数千小时机器人视频扩展到百万小时人类操作视频,当具身掩码从机械臂延伸至全身人形机器人、甚至多机协作场景,机器人的「预演能力」将迎来质的飞跃。
正如 DreamZero 等工作预示着机器人的「GPT 时刻」,BridgeV2W 从另一个维度证明:让机器人借助视频生成模型预演自身动作的后果,这条路不仅走得通,而且能走得更远。而拥有可靠预演能力的机器人,也将在工业生产、家庭服务、智能巡检等场景中,展现出更智能、更安全、更高效的具身智能,推动通用机器人的商业化落地。