Ant LingBot 开源 LingBot-World:构建具身智能的实时交互世界模型
发布日期:2026年1月29日
来源:AIbase Daily
核心概述
蚂蚁灵波(Ant Lingbo)团队在空间感知与具身大模型之后,正式开源了其交互式世界模型 LingBot-World。该模型旨在为具身智能、自动驾驶等领域提供一个高保真、逻辑一致且实时可控的“数字训练场”。
解决的核心痛点
LingBot-World 旨在解决具身智能训练中“真实世界数据稀缺、成本高昂”的核心痛点。通过在虚拟环境中模拟物理规律,智能体可以进行低成本的“试错”,并将学习到的因果关系迁移到现实世界。
关键技术突破
1. 长时程时序一致性
- 实现了近10分钟的连续稳定生成。
- 即使摄像机移开60秒后再返回,场景中的物体结构和外观仍能保持一致。
- 有效解决了视频生成中的“细节崩溃”问题。
2. 高保真实时交互
- 支持动作条件生成,生成吞吐量约为 16 FPS。
- 端到端交互延迟控制在1秒以内。
- 用户可通过键盘、鼠标或文本指令实时改变环境(如调整天气、视角)。
3. 零样本泛化能力
- 采用混合数据策略进行训练,结合了网络视频和虚幻引擎(UE)合成流水线。
- 用户只需输入一张真实的城市照片或游戏截图,模型即可生成交互式视频流,无需针对特定场景进行额外训练。
开源状态
目前,蚂蚁灵波团队已全面开源 LingBot-World 的模型权重和推理代码。
关键要点总结
- 数字训练场:能模拟真实物理因果关系,为AI机器人提供低成本试错空间。
- 超长记忆:支持长达10分钟的逻辑一致性生成,消除长视频常见的“物体形变”现象。
- 实时交互:16 FPS的生成速率,实现毫秒级动作响应与即时环境反馈。
- 极简部署:具备零样本能力,单张照片即可“变身”为可交互的3D仿真世界。
相关背景
该模型在视频质量、动态性等关键指标上可与 Google Genie3 相媲美。此次开源是蚂蚁灵波在具身智能领域系列开源动作的一部分,此前团队已开源了具身大模型 LingBot-VLA 及其后训练工具链,以及高精度空间感知模型 LingBot-Depth。
