蚂蚁灵眸发布首个开源因果世界模型

蚂蚁灵眸最新成果：开源因果世界模型来了

蚂蚁灵眸科技联合港科大等高校，搞出了一件挺有意思的机器人控制新东西。他们的论文《Causal World Modeling for Robot Control》已经被顶级会议 RSS 2026 录用了。

LingBot-VA 是个开源的“自回归视频 – 动作世界模型”。简单来说，就是让机器人一边干活，一边自己“想”接下来会发生什么。

它不像以前那样，只等指令来了再动。现在它能先预测：如果我推这个杯子，桌子会变成什么样？然后直接生成下一步该往哪推的指令。这就有点像人一边做事一边预判后果，形成“看 – 想 – 做”的闭环。

关键点在于“因果”。物理世界是有时间顺序的，不能乱预测。这个模型把因果关系硬塞进架构里，每一步预测都只基于刚才看到的和做的。

架构上，它用了 Mixture-of-Transformers (MoT) 技术，把视频预测和动作生成塞进同一个扩散框架里。还有个不错的机制：边干活边听环境的实时反馈。这样能减少预测太长了以后容易出错的问题，也就是所谓的“长程记忆”更靠谱了。

作者拿它去仿真环境和真机器人上跑了一通，数据确实有点猛：

测试场景	具体任务/基准	难度等级	成功率	行业对比优势
仿真环境	RoboTwin2.0 (双臂操作)	Easy / Hard	92.0% / 91.1%	–
仿真环境	LIBERO Benchmark	–	98.5%	–
真实世界	6 项挑战任务 (长序列/高精度/多物体)	需 50 条演示数据	超行业基准 20 个百分点	极强的数据效率与泛化能力

在真机器上跑 6 项难任务时，只需要 50 条演示数据就能跑成，比行业平均水平高了 20 个点。这数据效率，看着确实有点东西。

算是个里程碑：被 RSS 录用，说明“用世界模型驱动机器人控制”这路子算是被国际顶级圈子里认可了。LingBot-VA 作为具身智能的基础模型，身价肯定涨了。
解决了啥问题？ 以前机器人就是听指令干活，不问“为什么”。比如你让它拿杯子，它可能没想清楚拿起来后桌子会空还是杯子会碎。这个模型至少让它有点“预知能力”了。
以后能干啥？ 机器人可能慢慢不用那么依赖人给的具体指令了，自己看环境、理解任务、自己做决定。

代码和权重都开源了，就在今年早些时候放出来的。

注：文中涉及的公司及产品名称包括蚂蚁灵眸科技 (Ant Lingbo Technology)、RSS 会议、LingBot-VA 模型等。