AI-NEWS · 2026年 1月 30日

蚂蚁开源实时交互世界模型

Ant LingBot 开源 LingBot-World：构建具身智能的实时交互世界模型

发布日期：2026年1月29日
来源：AIbase Daily

核心概述

蚂蚁灵波（Ant Lingbo）团队在空间感知与具身大模型之后，正式开源了其交互式世界模型 LingBot-World。该模型旨在为具身智能、自动驾驶等领域提供一个高保真、逻辑一致且实时可控的“数字训练场”。

解决的核心痛点

LingBot-World 旨在解决具身智能训练中“真实世界数据稀缺、成本高昂”的核心痛点。通过在虚拟环境中模拟物理规律，智能体可以进行低成本的“试错”，并将学习到的因果关系迁移到现实世界。

关键技术突破

1. 长时程时序一致性

实现了近10分钟的连续稳定生成。
即使摄像机移开60秒后再返回，场景中的物体结构和外观仍能保持一致。
有效解决了视频生成中的“细节崩溃”问题。

2. 高保真实时交互

支持动作条件生成，生成吞吐量约为 16 FPS。
端到端交互延迟控制在1秒以内。
用户可通过键盘、鼠标或文本指令实时改变环境（如调整天气、视角）。

3. 零样本泛化能力

采用混合数据策略进行训练，结合了网络视频和虚幻引擎（UE）合成流水线。
用户只需输入一张真实的城市照片或游戏截图，模型即可生成交互式视频流，无需针对特定场景进行额外训练。

开源状态

目前，蚂蚁灵波团队已全面开源 LingBot-World 的模型权重和推理代码。

关键要点总结

数字训练场：能模拟真实物理因果关系，为AI机器人提供低成本试错空间。
超长记忆：支持长达10分钟的逻辑一致性生成，消除长视频常见的“物体形变”现象。
实时交互：16 FPS的生成速率，实现毫秒级动作响应与即时环境反馈。
极简部署：具备零样本能力，单张照片即可“变身”为可交互的3D仿真世界。

相关背景

该模型在视频质量、动态性等关键指标上可与 Google Genie3 相媲美。此次开源是蚂蚁灵波在具身智能领域系列开源动作的一部分，此前团队已开源了具身大模型 LingBot-VLA 及其后训练工具链，以及高精度空间感知模型 LingBot-Depth。

火龙果频道

您可能还喜欢...