AI-NEWS · 2025年 12月 29日

英伟达发布游戏AI模型

NVIDIA发布NitroGen：面向游戏智能体的视觉动作基础模型

NVIDIA人工智能研究团队近期发布了NitroGen，这是一个开源的、面向通用游戏智能体的视觉动作基础模型。该模型能够通过理解游戏画面和控制器操作，直接从在线视频中学习如何玩商业游戏。

核心特性与数据规模

学习方式：通过观看带有控制器操作可视化叠加层的公开游戏视频进行学习。
训练数据：基于40,000小时的精选游戏视频进行训练，原始视频收集量达71,000小时。
覆盖范围：数据涵盖1,000多款游戏，具体来自818位创作者的38,739个视频。
游戏类型分布：动作角色扮演游戏占比最高（34.9%），其次是平台游戏（18.4%）和动作冒险游戏（9.2%），其余为体育、Roguelike、竞速等多种类型。

关键技术细节

动作提取流程：采用三阶段流程确保动作预测准确性。
- 定位：使用300个控制器模板定位视频中的控制器叠加层。
- 解析：采用基于SegFormer的分类分割模型解析控制器区域。
- 优化：对坐标进行细化处理。
通用模拟器：可将商业Windows游戏打包成与Gymnasium兼容的接口，支持逐帧交互，且无需修改游戏源代码，使得训练出的策略能直接应用于多款游戏。
模型架构：采用基于Diffusion Transformer的策略架构，在256×256分辨率的RGB图像上运行。

性能表现

零样本评估：在多项任务上展现出良好的零样本评估能力，任务完成率介于**45%至60%**之间。
迁移学习优势：将预训练模型迁移到新游戏时，性能相比从零开始训练有显著提升，最高提升幅度达52%。

发布意义

NitroGen的发布为游戏AI和通用智能体研究提供了强大的开源基础。其配套开放的数据集、通用模拟器和预训练策略，有望降低相关研究门槛，推动该领域发展。

发布日期：2025年12月29日
发布方：NVIDIA人工智能研究团队

火龙果频道

您可能还喜欢...