NVIDIA 联合清华大学、多伦多大学和矢量研究所,一起搞出了个新东西,叫 Gamma-World。
以前那种视频世界模型,基本是个人在那儿瞎转悠,或者两个人配合一下就算顶天了。你想让一群人在虚拟世界里同时跑、互相看、还配合干活?老模型直接趴窝。
这次 Gamma-World 算是把“单视角”给砸了,主打一个多智能体协作。说白了,就是让好几个 AI 智能体在一个虚拟环境里,像真的一样互动。
为啥以前不行,现在行了?主要解决了三个老生常谈的头疼事:时间对得上不对不上、不同角度看画面能不能统一、还有智能体之间怎么互动才不卡壳。
拿以前那个 Solaris 模型举例吧,它俩能配合是挺牛,但有两处硬伤:
第一,它分不清谁是谁。因为编码方式太对称,导致模型看谁都差不多,没法区分个体。
第二,太费算力。只要参与的人数一多,计算量就爆炸式增长(平方级),根本跑不动大规模的场景。
Gamma-World 直接把这两个坑给填平了,改动挺大的:
1. 用几何位置代替名字(简单旋转编码)
以前得给每个智能体编个号,现在直接把所有人扔到一个几何图形(单纯形)的顶点上。
好处是:
- 不用教模型认脸,大家地位平等,位置天然就不一样。
- 不用重新训练。用两个人的数据练出来的模型,直接扔进去四个人、甚至更多人也能跑,架构都不用动。
2. 搞了个“中间人”传话(稀疏枢纽注意力)
以前是 A 看 B,B 看 C,每个人都要跟别人直接连上,人多就累死了。
这次改得聪明点:
- 大家不再互相直接看,而是都盯着一个“中间人”(Hub Tokens)。
- 这个中间人负责把大家看到的景象压缩一下转述。
- 结果就是,计算量从平方级降到了线性级。实测下来,跑起来能到 24 帧每秒,实时性有了。
3. 老师带着学生练(三阶段蒸馏)
训练的时候,搞了个“老专家”模型带着“新手”模型学。
- 本来需要一步步慢慢推理(自回归),现在压缩成了四步。
- 好处是速度快了,而且不会像以前那样,推得越久错得越离谱。
实测数据看着挺漂亮:
在 Minecraft 这种游戏环境里,搞记忆、建房子这些任务,生成的视频质量比现在最强的模型好了 40% 以上(FVD 分数低了)。
而且,这玩意儿不光在电脑里跑,真机上也试过了。双臂机器人拿着东西互相配合干活,它也能指挥得过来。
最后说说这玩意儿能干嘛。
这算是给物理 AI 搭了个新地基。以后搞大规模仿真,比如:
- 医院里几个机械臂一起配合做手术。
- 工厂里一堆机器人协调搬运。
- 自动驾驶里,让一堆车在复杂路口模拟怎么过。
这些以前想都不敢想的大场面,现在可能真能模拟出来了。
总之,这算是给多智能体仿真开了个新窗口,虽然具体落地还得看后续,但方向算是找对了。
