AI-NEWS · 2025年 12月 29日

英伟达发布游戏AI模型

NVIDIA发布NitroGen:面向游戏智能体的视觉动作基础模型

NVIDIA人工智能研究团队近期发布了NitroGen,这是一个开源的、面向通用游戏智能体的视觉动作基础模型。该模型能够通过理解游戏画面和控制器操作,直接从在线视频中学习如何玩商业游戏。

核心特性与数据规模

  • 学习方式:通过观看带有控制器操作可视化叠加层的公开游戏视频进行学习。
  • 训练数据:基于40,000小时的精选游戏视频进行训练,原始视频收集量达71,000小时。
  • 覆盖范围:数据涵盖1,000多款游戏,具体来自818位创作者38,739个视频。
  • 游戏类型分布:动作角色扮演游戏占比最高(34.9%),其次是平台游戏(18.4%)和动作冒险游戏(9.2%),其余为体育、Roguelike、竞速等多种类型。

关键技术细节

  1. 动作提取流程:采用三阶段流程确保动作预测准确性。
    • 定位:使用300个控制器模板定位视频中的控制器叠加层。
    • 解析:采用基于SegFormer的分类分割模型解析控制器区域。
    • 优化:对坐标进行细化处理。
  2. 通用模拟器:可将商业Windows游戏打包成与Gymnasium兼容的接口,支持逐帧交互,且无需修改游戏源代码,使得训练出的策略能直接应用于多款游戏。
  3. 模型架构:采用基于Diffusion Transformer的策略架构,在256×256分辨率的RGB图像上运行。

性能表现

  • 零样本评估:在多项任务上展现出良好的零样本评估能力,任务完成率介于**45%至60%**之间。
  • 迁移学习优势:将预训练模型迁移到新游戏时,性能相比从零开始训练有显著提升,最高提升幅度达52%

发布意义

NitroGen的发布为游戏AI和通用智能体研究提供了强大的开源基础。其配套开放的数据集、通用模拟器和预训练策略,有望降低相关研究门槛,推动该领域发展。

发布日期:2025年12月29日
发布方:NVIDIA人工智能研究团队

火龙果频道