整整三天,一波接一波、接连不断地迎来重磅开源!
继机器人之眼LingBot-Depth、机器人之脑LingBot-VLA之后,刚刚,蚂蚁灵波再度带来一项重大开源成果 —— 通用世界模型LingBot-World。
它能够支持在长达 10 分钟的时长内,实现持续生成、实时交互,快来一同感受这份震撼!
不难看出,视觉效果已经做到了与DeepMind推出的Genie 3 不相上下,但时间维度上明显是更长。
而且LingBot-World生成的视频不只是能看,你也可以深度参与 其中。
你可以通过键盘(WASD)和鼠标,实时控制视角的推进、旋转,就像在玩一款3A大作一样:
当然,Agent 也能够在生成的世界中自主规划并执行动作。
与此同时,你也可以用自然语言 的方式去实时改变 生成世界里的一切。
例如我们“喂”给LingBot-World这样一张初始图:
只需输入“前面放个烟花”(0-10s)、“变成冰雪世界”(10-20s),LingBot-World就会从这张图开始按照你的要求生成下去:
言出法随,真·言出法随。
但最最最关键的是,不同于Genie 3的闭源,LingBot-World选择的是完全开源!
这也成了网友们直呼“Amazing”的重点:
对开源社区来说是个巨大的胜利。
如此开源对具身智能来说是个巨大进步。
那么LingBot-World到底是如何做到的呢?
相关论文也已新鲜出炉,我们这就来一探究竟。
LingBot-World 是如何炼成的?
从效果展示与行业讨论中,世界模型的三大核心难点 —— 一致性、交互性、实时性,正是 LingBot-World 的攻坚方向。它和普通 AI 视频生成有着本质区别:后者仅需视觉效果达标,而世界模型必须遵循严格物理规律持续推演,核心定位更接近一个可交互的世界模拟器。蚂蚁灵波团队围绕这一目标,从数据、模型两大维度层层突破,最终打造出这款重磅成果。
一、数据筑基:双管齐下 + 分层标注,筑牢训练根基
攻克核心难点的第一步,是解决世界模型训练中高质量交互数据稀缺的痛点,团队为 LingBot-World 构建了混合数据引擎。
- 一方面,海量收录真实世界视频,覆盖第一人称、第三人称多视角,为模型注入真实世界的视觉基底;
- 另一方面,依托虚幻引擎(Unreal Engine)合成仿真数据,从渲染层直接提取原生的精准相机位姿、完整物理碰撞信息,这是让模型习得因果关系的关键。
在此基础上,团队摒弃传统笼统的视频描述,创新采用分层标注策略,将描述拆解为三大层级,精准引导模型学习:
- 叙事描述(Narrative Caption):聚焦整体叙事,刻画视频完整情节与环境全局变化,帮模型建立宏观世界认知。
- 静态场景描述(Scene-Static Caption):仅描绘环境、刻意剔除动作信息,实现背景与运动解耦,让模型区分静态场景与动态行为。
- 密集时序描述(Dense Temporal Caption):精准到秒的精细化动作标注,例如 “第 5 秒向左转,视线内出现一根柱子”,赋予模型极强的时序感知与细节捕捉能力。
二、模型进化:三阶段迭代,突破生成、物理、实时三大瓶颈
LingBot-World 并未从零开始 “硬 Train”,而是采用三阶段进化策略,逐步解锁核心能力,逐一攻克行业难题。
阶段一:预训练 —— 生成基础世界
核心目标是筑牢通用视频生成能力,不追求交互性。团队以成熟视频生成模型为基础完成初始化,让模型掌握高保真纹理渲染、逼真光影塑造的核心技能,打下坚实的视觉生成根基。
阶段二:中训练 —— 注入物理规律,习得交互逻辑
本阶段聚焦让模型掌握严格物理规律,团队引入混合专家模型架构,实现分工协作:部分专家负责构建全局结构与宏观布局,如山峦位置、道路走向;部分专家负责填充微观纹理细节,如水面波纹、叶片脉络。同时,模型注入海量交互数据与游戏逻辑,学会 “指令 - 画面反馈” 的对应关系(如按下 W 键后的画面变化);搭配渐进式课程学习,模型成功涌现空间记忆能力,解决了长视频生成的灾难性遗忘问题,从根源上保障长时序一致性。
阶段三:后训练 —— 攻坚实时性,实现 Real-time Playable
针对传统双向扩散模型推理速度慢的痛点,团队引入因果注意力机制与少步蒸馏技术,将推理模式从双向推演转为自回归生成。在不损失画质的前提下,把生成延迟压缩至 1 秒以内,达成16fps 生成速度,真正实现实时可交互(Real-time Playable)。
三、成果凸显:性能领跑,长时序能力一骑绝尘
凭借上述技术突破,LingBot-World 在与 Genie 3、Mirage 2 等行业顶尖模型的对比中,取得显著性能优势。尤其在长时序一致性和空间记忆层面,模型实现 “生成即记住”,还能实现近 10 分钟的连续稳定、无损生成,彻底解决了视频生成领域的 “长时漂移” 难题。
纵观蚂蚁灵波这三天的开源,一个很直接的体感就是真实。
这不,为了证明LingBot-World不只是个demo,团队还把实施部署 的视频给放出来了:











