NVIDIA 联手清华：多智能体仿真新突破

NVIDIA 联合清华大学、多伦多大学和矢量研究所，一起搞出了个新东西，叫 Gamma-World。

以前那种视频世界模型，基本是个人在那儿瞎转悠，或者两个人配合一下就算顶天了。你想让一群人在虚拟世界里同时跑、互相看、还配合干活？老模型直接趴窝。

这次 Gamma-World 算是把“单视角”给砸了，主打一个多智能体协作。说白了，就是让好几个 AI 智能体在一个虚拟环境里，像真的一样互动。

为啥以前不行，现在行了？主要解决了三个老生常谈的头疼事：时间对得上不对不上、不同角度看画面能不能统一、还有智能体之间怎么互动才不卡壳。

拿以前那个 Solaris 模型举例吧，它俩能配合是挺牛，但有两处硬伤：
第一，它分不清谁是谁。因为编码方式太对称，导致模型看谁都差不多，没法区分个体。
第二，太费算力。只要参与的人数一多，计算量就爆炸式增长（平方级），根本跑不动大规模的场景。

Gamma-World 直接把这两个坑给填平了，改动挺大的：

1. 用几何位置代替名字（简单旋转编码）
以前得给每个智能体编个号，现在直接把所有人扔到一个几何图形（单纯形）的顶点上。
好处是：

2. 搞了个“中间人”传话（稀疏枢纽注意力）
以前是 A 看 B，B 看 C，每个人都要跟别人直接连上，人多就累死了。
这次改得聪明点：

3. 老师带着学生练（三阶段蒸馏）
训练的时候，搞了个“老专家”模型带着“新手”模型学。

实测数据看着挺漂亮：
在 Minecraft 这种游戏环境里，搞记忆、建房子这些任务，生成的视频质量比现在最强的模型好了 40% 以上（FVD 分数低了）。
而且，这玩意儿不光在电脑里跑，真机上也试过了。双臂机器人拿着东西互相配合干活，它也能指挥得过来。

最后说说这玩意儿能干嘛。
这算是给物理 AI 搭了个新地基。以后搞大规模仿真，比如：

总之，这算是给多智能体仿真开了个新窗口，虽然具体落地还得看后续，但方向算是找对了。

近期新闻