开源界炸场!蚂蚁灵波 LingBot-World:10 分钟交互 + 物理级真实,世界模型天花板来了

连续三天三连开源!继机器人 “眼睛” LingBot-Depth、“大脑” LingBot-VLA 之后,蚂蚁灵波再放大招 —— 开源通用世界模型LingBot-World。它不仅能生成 10 分钟时长的连贯虚拟世界,还支持实时交互、物理规律遵循,视觉效果比肩 DeepMind Genie 3,更关键的是:完全开源,让整个开源社区直呼 “史诗级胜利”!

核心亮点:不止能看,更能 “玩” 的虚拟世界

LingBot-World 打破了传统 AI 视频生成 “只能看不能动” 的局限,把一致性、交互性、实时性三大核心能力拉满,带来颠覆性体验:

  1. 超长时序 + 高度一致:支持 10 分钟连续生成,科幻场景中的光圈、角色等元素,无论远景近景都保持统一,不会出现中途 “变形”;

  2. 强记忆不遗忘:视频中的猫咪离开画面后,镜头转回时仍能还原其行为轨迹,仿佛在屏外自然活动,彻底解决长视频 “灾难性遗忘”;

  3. 物理规律严遵循:物体碰撞、空间关系符合现实逻辑,猫咪撞到沙发不会穿模,虚拟世界真实感拉满;

  4. 双模式深度交互:既支持 WASD 键盘 + 鼠标操控视角,像玩 3A 游戏一样自由探索;也支持自然语言实时干预,输入 “前面放烟花”“变成冰雪世界”,就能 “言出法随” 改写虚拟世界;

  5. Agent 自主行动:智能体可在生成世界中自主规划路径、执行任务,无需人工实时操控。

技术拆解:LingBot-World 是如何炼成的?

要实现 “逼真 + 交互 + 长效” 的世界模拟,蚂蚁灵波团队在数据和模型层面做了双重创新:

1. 数据层面:混合引擎 + 分层标注

  • 混合数据引擎:结合海量真实世界视频(第一 / 第三人称视角)与虚幻引擎合成数据,合成数据自带相机位姿和物理碰撞信息,帮模型掌握因果关系;

  • 三层标注策略:叙事描述(讲整体情节)、静态场景描述(剥离动作聚焦环境)、密集时序描述(精确到秒的动作记录),让模型清晰区分背景与运动。

2. 模型层面:三阶段进化策略

  • 预训练:基于视频生成模型初始化,重点打磨高保真纹理和光影生成能力,先 “画好一个世界”;

  • 中训练:引入混合专家架构,分工负责全局布局与细节填充,注入交互数据和游戏逻辑,让模型学会 “响应操作”,同时通过渐进式学习激活空间记忆;

  • 后训练:采用因果注意力机制 + 少步蒸馏技术,将推理从双向推演改为自回归生成,延迟压缩至 1 秒内(16fps),实现实时可交互。

布局曝光:1+1+1>3 的具身智能闭环

单独看 LingBot-World 是强大的世界模拟器,但结合前两款开源产品,蚂蚁灵波的具身智能布局瞬间清晰 —— 三者构成完整基础设施闭环:

  • 感知层(LingBot-Depth):通过掩码深度建模补全传感器信号,让机器人看清反光、透明物体,搞定 “看见世界”;

  • 决策层(LingBot-VLA):经 20000 小时真实数据训练,在三大机器人平台完成 100 项任务,成功率碾压同类,负责 “规划行动”;

  • 模拟层(LingBot-World):生成无穷尽的物理级虚拟环境,让 VLA 在其中千万次低成本推演,同时生成的 3D 点云可反哺 Depth 优化,真实世界反馈又能提升 World 模拟精度。

这套闭环不仅适配具身智能,还能延伸到游戏开发、AIGC 创作、自动驾驶仿真等多个领域,潜力无限。

开源资源直达(附部署验证)

为证明不是 “demo 级产品”,团队已公开部署视频,核心资源一键获取:

哇这个实时交互太酷了 以后做游戏原型直接让AI生成世界了 开源确实给力

这个看起来有点意思啊

哇这效果也太顶了

蚂蚁这波开源太顶了

这波开源确实给力

哇这效果也太强了

这个开源力度确实惊人,蚂蚁灵波这次把整个技术栈都铺开了。不过实时交互的稳定性还得看实际部署效果,希望社区能尽快验证。

这波开源确实给力