NVIDIA发布NitroGen:面向游戏智能体的视觉动作基础模型
NVIDIA人工智能研究团队近期发布了NitroGen,这是一个开源的、面向通用游戏智能体的视觉动作基础模型。该模型能够通过理解游戏画面和控制器操作,直接从在线视频中学习如何玩商业游戏。
核心特性与数据规模
- 学习方式:通过观看带有控制器操作可视化叠加层的公开游戏视频进行学习。
- 训练数据:基于40,000小时的精选游戏视频进行训练,原始视频收集量达71,000小时。
- 覆盖范围:数据涵盖1,000多款游戏,具体来自818位创作者的38,739个视频。
- 游戏类型分布:动作角色扮演游戏占比最高(34.9%),其次是平台游戏(18.4%)和动作冒险游戏(9.2%),其余为体育、Roguelike、竞速等多种类型。
关键技术细节
- 动作提取流程:采用三阶段流程确保动作预测准确性。
- 定位:使用300个控制器模板定位视频中的控制器叠加层。
- 解析:采用基于SegFormer的分类分割模型解析控制器区域。
- 优化:对坐标进行细化处理。
- 通用模拟器:可将商业Windows游戏打包成与Gymnasium兼容的接口,支持逐帧交互,且无需修改游戏源代码,使得训练出的策略能直接应用于多款游戏。
- 模型架构:采用基于Diffusion Transformer的策略架构,在256×256分辨率的RGB图像上运行。
性能表现
- 零样本评估:在多项任务上展现出良好的零样本评估能力,任务完成率介于**45%至60%**之间。
- 迁移学习优势:将预训练模型迁移到新游戏时,性能相比从零开始训练有显著提升,最高提升幅度达52%。
发布意义
NitroGen的发布为游戏AI和通用智能体研究提供了强大的开源基础。其配套开放的数据集、通用模拟器和预训练策略,有望降低相关研究门槛,推动该领域发展。
发布日期:2025年12月29日
发布方:NVIDIA人工智能研究团队
