2026 年 2 月 7 日,Alphabet 旗下自动驾驶巨头 Waymo 正式推出全新的 Waymo World Model(Waymo 世界模型),该模型深度依托 Google DeepMind 的 Genie 3 通用世界模型构建,凭借超逼真的大规模自动驾驶仿真能力,为行业树立了全新的技术标杆,更让自动驾驶系统拥有了提前 “脑补” 并应对各类罕见、极端交通场景的核心能力。
Waymo 官方发布这一消息后,DeepMind CEO、诺奖得主 Demis Hassabis 也第一时间转推点赞,直言这是 Genie 3 模拟技术的 “超酷应用案例”。这款世界模型的核心价值,在于突破了传统自动驾驶仿真的场景局限,能在虚拟世界中还原甚至生成现实中极难遇见的交通状况,让 Waymo Driver 在驶上真实道路前,完成海量极端场景的 “演练”。
一、Genie 3 为基底:打造高保真、可交互的 3D 自动驾驶仿真世界
Waymo World Model 并非从零搭建,而是以 DeepMind 的 Genie 3 通用世界模型为核心基础,并针对自动驾驶的专业需求完成深度适配,使其具备了三大核心特性:
-
超逼真 3D 环境生成:依托 Genie 3 的技术能力,可生成高度逼真且支持交互的 3D 驾驶环境,能精准还原道路、建筑、交通设施等各类细节,让仿真场景无限贴近现实;
-
罕见场景全覆盖:借助 Genie 3 积累的海量世界知识,模型可模拟现实中几乎无法大规模复现的 “长尾场景”,从龙卷风、暴雪等极端天气,到公路偶遇大象、长角牛,再到车辆逆向行驶、货车冲下道路等突发状况,都能精准还原;
-
多传感器数据同步生成:针对自动驾驶系统的感知需求,模型可同步生成高保真的多模态传感器数据,包括摄像头图像、激光雷达点云等,为自动驾驶算法训练提供与真实采集无异的感知数据,让系统的 “眼观六路” 在虚拟世界中同样生效。
更重要的是,Waymo World Model 的操作门槛极低,工程师无需复杂的建模操作,仅通过简单的语言提示、驾驶输入或场景布局调整,就能快速修改、生成仿真内容,大幅提升仿真测试的效率。
二、核心突破:从 “经验学习” 到 “知识迁移”,解锁跨模态场景生成
传统自动驾驶仿真模型的一大痛点,是仅能基于车队自身采集的道路数据训练,导致系统只能从有限的真实经验中学习,对未遇见过的场景毫无应对能力。而 Waymo World Model 依托 Genie 3 实现了跨模态世界知识迁移,彻底打破了这一局限:
-
预训练积累海量世界知识:Genie 3 早已在规模庞大、类型多样的 2D 视频数据上完成预训练,沉淀了强大的通用世界知识,让模型具备了探索车队从未直接经历过的场景的能力;
-
2D 知识向 3D 感知迁移:Waymo 通过专属的后训练流程,将 Genie 3 的 2D 视频世界知识,精准迁移到适配 Waymo 硬件的 3D 激光雷达输出中,结合摄像头的视觉细节与激光雷达的精准深度信息,实现了多传感器的跨模态场景生成;
-
日常与极端场景通吃:无论是城市通勤、高速行驶等日常驾驶场景,还是前文提及的极端天气、罕见突发状况,模型都能高效生成对应的仿真环境,让自动驾驶系统的训练不再受限于真实场景的采集范围。
截至目前,Waymo Driver 已在真实道路上完成近 2 亿英里的完全自动驾驶行驶,成为美国多个主流城市的交通参与者,但这背后是其在虚拟世界中数十亿英里的仿真行驶。而 Waymo World Model 的登场,让这份 “虚拟演练” 的覆盖面和真实性再上一个台阶,成为 Waymo Driver 提升道路安全性的核心基础设施。
三、三大控制机制:让仿真场景 “可定制、可推演、可转换”
强大的仿真能力,更需要灵活的控制手段来落地。Waymo World Model 打造了驾驶行为控制、场景布局控制、语言控制三大核心机制,让工程师能对仿真场景实现精细化、个性化调控,满足各类测试需求:
1. 驾驶行为控制:推演 “如果…… 会怎样” 的反事实场景
可根据特定的驾驶输入,打造响应迅速的仿真器,模拟各类反事实驾驶场景。比如测试在某一交通状况下,Waymo Driver 能否更自信地主动通行,而非一味让行;或是模拟驾驶员操作失误时,系统的紧急避让策略是否有效,让工程师能对自动驾驶的决策逻辑做全方位验证。
相较于传统的重建式仿真方法(如 3D 高斯溅射),Waymo World Model 在模拟与原驾驶路径差异极大的全新路线时,不会因缺少观测数据出现视觉失真,仍能保持极高的真实感和逻辑一致性。
2. 场景布局控制:自定义打造专属测试场景
支持工程师对仿真场景的核心元素做自由调整,包括道路布局、交通信号灯状态、其他道路使用者(车辆、行人、非机动车)的行为等。通过选择性放置道路参与者、修改道路结构,可快速打造定制化测试场景,精准验证自动驾驶系统在特定道路条件下的表现。
3. 语言控制:最灵活的场景调控工具
这是 Waymo World Model 最具特色的控制方式,依托自然语言交互,工程师可轻松调节仿真场景的各类参数:小到调整一天中的时间(黎明、正午、深夜)、切换天气状况(晴天、阴天、暴雨、暴雪),大到直接生成完全合成的极端长尾场景,真正实现 “一句话生成一个测试场景”。
此外,模型还具备真实视频转仿真的能力,可将行车记录仪、手机拍摄的任意道路视频,转换为 Waymo Driver 视角的多模态仿真环境,让仿真场景的真实感和事实准确性达到最高水平,大幅丰富了仿真测试的素材来源。
四、高效可扩展:支撑长时、大规模仿真,筑牢安全基准
自动驾驶的仿真测试,不仅需要场景够丰富,更需要能实现长时段、大规模的连续仿真 —— 一些复杂场景(如狭窄车道会车、高速避让障碍物)需要较长的时间才能完整呈现,而长时间仿真往往面临计算负担重、画面易失真的问题。
Waymo World Model 专门打造了高效变体版本,可在显著降低计算量的前提下,实现长时段的高保真仿真,同时保持场景的真实感和逻辑稳定性。无论是在高速公路上穿梭于障碍物和车流之间,还是在繁忙的城市街区连续通行,模型都能流畅模拟,为自动驾驶系统的大规模仿真训练提供了可能。
通过在虚拟世界中模拟这些极端、罕见的交通状况,Waymo Driver 得以提前积累应对复杂长尾场景的 “经验”,让自动驾驶系统在现实道路上遇到类似挑战时,能做出快速、准确的决策。这一能力不仅为 Waymo 的自动驾驶安全树立了更严格的内部基准,也为整个自动驾驶行业的安全升级提供了全新的思路。
五、结语:世界模型成为自动驾驶的 “安全护城河”
从 Waymo 的布局不难看出,自动驾驶的竞争早已从 “真实道路行驶里程” 的比拼,延伸到 “虚拟世界仿真能力” 的较量。真实道路的行驶是对技术的验证,而虚拟世界的仿真则是对技术的打磨和升级,Waymo World Model 与 Genie 3 的结合,正是将通用 AI 的世界知识,与自动驾驶的专业需求深度融合的典范。
这款模型的推出,让 Waymo Driver 的安全防线再筑高墙 —— 在近 2 亿英里真实行驶的基础上,再叠加数十亿英里的极端场景仿真行驶,让自动驾驶系统从 “见过、做过”,升级为 “想到、练过”。而 Waymo 与 DeepMind 的这次联手,也为行业提供了新的方向:通用 AI 的世界模型,或将成为自动驾驶突破长尾场景难题的核心钥匙,推动自动驾驶向更安全、更通用的阶段迈进。
