AI-NEWS · 2026年 1月 30日

蚂蚁开源实时交互世界模型

Ant LingBot 开源 LingBot-World:构建具身智能的实时交互世界模型

发布日期:2026年1月29日
来源:AIbase Daily

核心概述

蚂蚁灵波(Ant Lingbo)团队在空间感知与具身大模型之后,正式开源了其交互式世界模型 LingBot-World。该模型旨在为具身智能、自动驾驶等领域提供一个高保真、逻辑一致且实时可控的“数字训练场”

解决的核心痛点

LingBot-World 旨在解决具身智能训练中“真实世界数据稀缺、成本高昂”的核心痛点。通过在虚拟环境中模拟物理规律,智能体可以进行低成本的“试错”,并将学习到的因果关系迁移到现实世界。

关键技术突破

1. 长时程时序一致性

  • 实现了近10分钟的连续稳定生成。
  • 即使摄像机移开60秒后再返回,场景中的物体结构和外观仍能保持一致。
  • 有效解决了视频生成中的“细节崩溃”问题。

2. 高保真实时交互

  • 支持动作条件生成,生成吞吐量约为 16 FPS
  • 端到端交互延迟控制在1秒以内
  • 用户可通过键盘、鼠标或文本指令实时改变环境(如调整天气、视角)。

3. 零样本泛化能力

  • 采用混合数据策略进行训练,结合了网络视频和虚幻引擎(UE)合成流水线。
  • 用户只需输入一张真实的城市照片或游戏截图,模型即可生成交互式视频流,无需针对特定场景进行额外训练。

开源状态

目前,蚂蚁灵波团队已全面开源 LingBot-World 的模型权重和推理代码。

关键要点总结

  • 数字训练场:能模拟真实物理因果关系,为AI机器人提供低成本试错空间。
  • 超长记忆:支持长达10分钟的逻辑一致性生成,消除长视频常见的“物体形变”现象。
  • 实时交互:16 FPS的生成速率,实现毫秒级动作响应与即时环境反馈。
  • 极简部署:具备零样本能力,单张照片即可“变身”为可交互的3D仿真世界。

相关背景

该模型在视频质量、动态性等关键指标上可与 Google Genie3 相媲美。此次开源是蚂蚁灵波在具身智能领域系列开源动作的一部分,此前团队已开源了具身大模型 LingBot-VLA 及其后训练工具链,以及高精度空间感知模型 LingBot-Depth

火龙果频道