蚂蚁灵眸最新成果:开源因果世界模型来了
蚂蚁灵眸科技联合港科大等高校,搞出了一件挺有意思的机器人控制新东西。他们的论文《Causal World Modeling for Robot Control》已经被顶级会议 RSS 2026 录用了。
1. 这模型是干嘛的?
LingBot-VA 是个开源的“自回归视频 – 动作世界模型”。简单来说,就是让机器人一边干活,一边自己“想”接下来会发生什么。
它不像以前那样,只等指令来了再动。现在它能先预测:如果我推这个杯子,桌子会变成什么样?然后直接生成下一步该往哪推的指令。这就有点像人一边做事一边预判后果,形成“看 – 想 – 做”的闭环。
关键点在于“因果”。物理世界是有时间顺序的,不能乱预测。这个模型把因果关系硬塞进架构里,每一步预测都只基于刚才看到的和做的。
- 产出啥? 它不光给你生成未来的视频画面,还直接给你算出一条“因果轨迹”。这才是真·能用来控制机器人的东西。
架构上,它用了 Mixture-of-Transformers (MoT) 技术,把视频预测和动作生成塞进同一个扩散框架里。还有个不错的机制:边干活边听环境的实时反馈。这样能减少预测太长了以后容易出错的问题,也就是所谓的“长程记忆”更靠谱了。
2. 效果咋样?
作者拿它去仿真环境和真机器人上跑了一通,数据确实有点猛:
| 测试场景 | 具体任务/基准 | 难度等级 | 成功率 | 行业对比优势 |
|---|---|---|---|---|
| 仿真环境 | RoboTwin2.0 (双臂操作) | Easy / Hard | 92.0% / 91.1% | – |
| 仿真环境 | LIBERO Benchmark | – | 98.5% | – |
| 真实世界 | 6 项挑战任务 (长序列/高精度/多物体) | 需 50 条演示数据 | 超行业基准 20 个百分点 | 极强的数据效率与泛化能力 |
在真机器上跑 6 项难任务时,只需要 50 条演示数据就能跑成,比行业平均水平高了 20 个点。这数据效率,看着确实有点东西。
3. 这玩意儿有啥用?
- 算是个里程碑:被 RSS 录用,说明“用世界模型驱动机器人控制”这路子算是被国际顶级圈子里认可了。LingBot-VA 作为具身智能的基础模型,身价肯定涨了。
- 解决了啥问题? 以前机器人就是听指令干活,不问“为什么”。比如你让它拿杯子,它可能没想清楚拿起来后桌子会空还是杯子会碎。这个模型至少让它有点“预知能力”了。
- 以后能干啥? 机器人可能慢慢不用那么依赖人给的具体指令了,自己看环境、理解任务、自己做决定。
4. 想玩一下去哪找?
代码和权重都开源了,就在今年早些时候放出来的。
注:文中涉及的公司及产品名称包括蚂蚁灵眸科技 (Ant Lingbo Technology)、RSS 会议、LingBot-VA 模型等。
