蚂蚁灵波科技正式开源交互式世界模型LingBot-World,这款专为具身智能打造的开源框架,凭借高保真模拟环境、长时稳定生成、实时交互响应三大核心能力,在关键指标上逼近谷歌 Genie3,更给机器人打造了一个低成本、无风险的 “元宇宙训练场”,开源社区瞬间沸腾!
核心突破:10 分钟稳定生成,60 秒离镜仍不 “失忆”
针对 AI 视频生成的 “长时漂移” 痛点 —— 生成时间拉长后易出现物体变形、场景崩坏、主体消失等问题,LingBot-World 通过多阶段训练与并行化加速技术,实现了近 10 分钟连续稳定无损生成,为复杂长序列任务训练提供了可靠支撑。
更惊艳的是其超强一致性:镜头最长移开 60 秒后返回,目标物体(车辆、房屋等)仍保持原有形态与结构,不会出现 “凭空消失” 或 “面目全非” 的情况。
交互体验同样拉满:生成吞吐达 16 FPS,端到端交互延迟控制在 1 秒内,支持键盘、鼠标实时操控角色与相机视角,画面即时反馈;也能通过文本指令触发环境变化,比如调整天气、切换画面风格、生成特定事件,所有改动都能在保持场景几何关系稳定的前提下完成,真正实现 “言出法随”。
核心能力:长程任务训练 + 零样本泛化,降低具身智能落地门槛
LingBot-World 的核心价值,在于为具身智能规模化落地解决两大关键难题:
1. 混合数据采集,解锁零样本泛化能力
为破解高质量交互数据匮乏的行业痛点,模型采用混合采集策略:
-
一方面清洗大规模网络视频,覆盖多样化真实场景;
-
另一方面结合游戏采集与虚幻引擎(UE)合成管线,从渲染层提取无 UI 干扰的纯净画面,同步记录操作指令与相机位姿,让模型精准学习 “动作与环境变化” 的因果关系。
这让 LingBot-World 具备出色的 Zero-shot 泛化能力:只需输入一张真实城市街景照或游戏截图,无需额外训练,就能生成对应的可交互视频流,大幅降低跨场景部署成本。
2. 低成本试错空间,支撑长程任务训练
具身智能落地的核心瓶颈之一,是复杂长程任务的真机训练数据稀缺(成本高、风险大)。而 LingBot-World 凭借长时序一致性、实时交互性,以及对物理规律的理解,能在数字世界中 “模拟物理场景”,为智能体提供高保真试错环境。
同时,模型支持场景多样化生成,可灵活调整光照、物体摆放位置等参数,帮助提升具身智能算法在真实场景中的泛化能力,加速技术落地。
开源资源直达:一键解锁具身智能训练神器
-
Hugging Face:https://huggingface.co/collections/robbyant/lingbot-world
-
魔搭社区:https://www.modelscope.cn/collections/Robbyant/LingBot-world
-
技术报告:https://github.com/robbyant/lingbot-world/blob/main/LingBot_World_paper.pdf
结语:蚂蚁补全具身智能拼图,打通生成式 AI 与实体交互
此次 LingBot-World 的开源,标志着蚂蚁 “灵波” 系列完成三款具身领域大模型布局,其 “基础模型 - 通用应用 - 实体交互” 的全栈技术路径愈发清晰,AGI 战略也实现了从数字世界向物理感知层面的关键延伸。
从行业视角来看,世界模型正成为连接生成式 AI 与具身智能的核心桥梁。LingBot-World 在长序列稳定生成与零样本泛化上的突破,有望推动具身智能从 “有限场景训练” 向 “开放场景适应” 演进,为行业发展注入新动力。

