Google DeepMind发布SIMA 2:征服复杂3D虚拟世界的新一代通用智能体
核心概述
Google DeepMind于2025年11月18日正式发布SIMA 2(Scalable Instructable Multi-World Agent),这是一个专为复杂3D游戏世界设计的通用智能体,标志着人工智能在虚拟环境交互能力上的重大突破。
技术架构升级
核心模型改进
- 推理引擎:采用Gemini 2.5 Flash Lite作为核心推理引擎
- 架构整合:将Gemini模型深度集成到智能体架构中
- 处理流程:接收视觉观察和用户指令 → 推导高级目标 → 生成相应动作
功能特性增强
- 多模态理解:支持文本、语音、图形甚至表情符号指令
- 意图解释:能够解释自身意图,回答关于当前目标的问题
- 推理展示:展示对环境推理过程的思考路径
性能表现对比
任务完成率显著提升
| 版本 | 任务完成率 | 对比基准 |
|---|---|---|
| SIMA 1 (2024年) | 31% | 人类玩家:71% |
| SIMA 2 (2025年) | 62% | 接近人类玩家水平 |
实际演示案例
在测试中,用户要求SIMA 2寻找"成熟番茄颜色的房子",智能体成功推理出"成熟番茄是红色的"并准确定位目标。
自我改进机制
学习演进过程
- 初始阶段:使用人类游戏演示进行训练
- 自主探索:进入新游戏后完全基于自身经验学习
- 任务生成:Gemini模型生成新任务并进行评分
- 持续优化:后续版本能在先前失败任务中取得成功,无需额外人类演示
环境生成能力
与Genie 3集成
- 环境创建:从单张图像或文本提示生成交互式3D环境
- 对象识别:在新环境中识别物体并完成指定任务
- 现实意义:为开发更先进的现实世界机器人迈出重要一步
关键突破点总结
- 推理能力提升:Gemini 2.5 Flash Lite集成带来更高的推理和规划能力
- 性能大幅改善:任务完成率从31%提升至62%,接近人类水平
- 场景适应性:通过自我改进机制和Genie 3环境生成,在新场景中展现出色的适应性和通用性
该技术突破为通用人工智能在复杂环境中的实际应用开辟了新的可能性,特别是在游戏开发、虚拟训练和未来机器人技术领域具有重要价值。
