连续三天三连开源!继机器人 “眼睛” LingBot-Depth、“大脑” LingBot-VLA 之后,蚂蚁灵波再放大招 —— 开源通用世界模型LingBot-World。它不仅能生成 10 分钟时长的连贯虚拟世界,还支持实时交互、物理规律遵循,视觉效果比肩 DeepMind Genie 3,更关键的是:完全开源,让整个开源社区直呼 “史诗级胜利”!
核心亮点:不止能看,更能 “玩” 的虚拟世界
LingBot-World 打破了传统 AI 视频生成 “只能看不能动” 的局限,把一致性、交互性、实时性三大核心能力拉满,带来颠覆性体验:
-
超长时序 + 高度一致:支持 10 分钟连续生成,科幻场景中的光圈、角色等元素,无论远景近景都保持统一,不会出现中途 “变形”;
-
强记忆不遗忘:视频中的猫咪离开画面后,镜头转回时仍能还原其行为轨迹,仿佛在屏外自然活动,彻底解决长视频 “灾难性遗忘”;
-
物理规律严遵循:物体碰撞、空间关系符合现实逻辑,猫咪撞到沙发不会穿模,虚拟世界真实感拉满;
-
双模式深度交互:既支持 WASD 键盘 + 鼠标操控视角,像玩 3A 游戏一样自由探索;也支持自然语言实时干预,输入 “前面放烟花”“变成冰雪世界”,就能 “言出法随” 改写虚拟世界;
-
Agent 自主行动:智能体可在生成世界中自主规划路径、执行任务,无需人工实时操控。
技术拆解:LingBot-World 是如何炼成的?
要实现 “逼真 + 交互 + 长效” 的世界模拟,蚂蚁灵波团队在数据和模型层面做了双重创新:
1. 数据层面:混合引擎 + 分层标注
-
混合数据引擎:结合海量真实世界视频(第一 / 第三人称视角)与虚幻引擎合成数据,合成数据自带相机位姿和物理碰撞信息,帮模型掌握因果关系;
-
三层标注策略:叙事描述(讲整体情节)、静态场景描述(剥离动作聚焦环境)、密集时序描述(精确到秒的动作记录),让模型清晰区分背景与运动。
2. 模型层面:三阶段进化策略
-
预训练:基于视频生成模型初始化,重点打磨高保真纹理和光影生成能力,先 “画好一个世界”;
-
中训练:引入混合专家架构,分工负责全局布局与细节填充,注入交互数据和游戏逻辑,让模型学会 “响应操作”,同时通过渐进式学习激活空间记忆;
-
后训练:采用因果注意力机制 + 少步蒸馏技术,将推理从双向推演改为自回归生成,延迟压缩至 1 秒内(16fps),实现实时可交互。
布局曝光:1+1+1>3 的具身智能闭环
单独看 LingBot-World 是强大的世界模拟器,但结合前两款开源产品,蚂蚁灵波的具身智能布局瞬间清晰 —— 三者构成完整基础设施闭环:
-
感知层(LingBot-Depth):通过掩码深度建模补全传感器信号,让机器人看清反光、透明物体,搞定 “看见世界”;
-
决策层(LingBot-VLA):经 20000 小时真实数据训练,在三大机器人平台完成 100 项任务,成功率碾压同类,负责 “规划行动”;
-
模拟层(LingBot-World):生成无穷尽的物理级虚拟环境,让 VLA 在其中千万次低成本推演,同时生成的 3D 点云可反哺 Depth 优化,真实世界反馈又能提升 World 模拟精度。
这套闭环不仅适配具身智能,还能延伸到游戏开发、AIGC 创作、自动驾驶仿真等多个领域,潜力无限。
开源资源直达(附部署验证)
为证明不是 “demo 级产品”,团队已公开部署视频,核心资源一键获取:


