腾讯开源 WorldCompass：世界模型终于能听懂人话了

腾讯混元 3D 团队最近搞了个大动作，开源了一个叫 WorldCompass 的框架。简单说，这是全球第一个专门针对世界模型做强化学习（RL）后训练的“补丁”。

以前我们总觉得，只要把海量数据喂给模型，它就能学会怎么跟虚拟世界互动。但现实很骨感：当用户发出“把这个杯子推到桌子底下”这种稍微复杂点的指令时，模型要么一脸懵圈，要么推歪了。这就导致大家虽然有了很漂亮的 3D 世界模型，但根本没法用它来玩游戏或者做交互，这东西离真正的实用还有点远。

WorldCompass 就是为了解决这个“听懂人话”的问题。它不靠单纯的堆数据，而是用强化学习去“调教”模型，让它在跟环境互动中不断试错、学习。

实测效果确实有点东西。拿开源的最先进模型 WorldPlay 做对比，加上这个框架后，交互准确率从 20% 直接干到了 55% 以上，翻了近三倍。最让我意外的是视觉一致性——在长距离、长时序的探索里，画面没有那种明显的闪烁或断裂感，这对于虚拟人来说是个大进步。

腾讯混元团队说，这标志着世界模型从“纯预训练时代”跨进了“强化学习微调时代”。这话听着挺宏大，但细想其实很实际：以前大家觉得做世界模型就是拼算力、拼数据量，现在发现，后天的训练和微调才是决定它能不能用的关键。

代码和技术报告都开源了，这意味着全球开发者终于有了一套现成的工具，去构建那种既能看清细节又能听懂指令的虚拟世界。虽然离完美的“通用智能体”可能还有距离，但至少，让虚拟人真正“活”起来、能跟用户玩起来的路，算是被铺上了一块砖。

我个人的感觉是，这步棋走对了。世界模型这玩意儿，光有漂亮的皮囊（预训练）没用，得学会听话（强化学习）才能落地。这大概才是它真正开始有用的信号。

近期新闻