AI-NEWS · 2025年 11月 22日

Meta推AI训练新框架

Meta推出DreamGym框架:提升AI智能体训练效率与安全性

核心概述

Meta公司与芝加哥大学、加州大学伯克利分校的研究人员合作,开发了名为DreamGym的新型框架,旨在解决使用强化学习(RL)训练大型语言模型(LLM)智能体时面临的高成本、复杂基础设施和不可靠反馈等问题。

技术挑战与解决方案

现有问题

  • 长操作序列:实际应用中涉及复杂的操作流程
  • 稀疏反馈:智能体仅在一系列正确操作后才能获得正向信号
  • 数据收集成本高:需要专家验证和标注,费用昂贵

DreamGym创新特点

  1. 模拟训练环境:通过模拟RL环境训练智能体,使其能高效处理复杂应用
  2. 动态难度调整:在训练过程中动态调整任务难度,确保智能体逐步学习解决更具挑战性的问题
  3. 成本优势:在RL可应用但成本高昂的环境中,仅依靠合成交互就能达到与流行算法相当的性能

框架核心组件

DreamGym框架包含三个关键部分:

1. 基于推理的经验模型

  • 将目标环境动态转换为文本空间
  • 模拟应用环境

2. 经验回放缓冲区

  • 作为动态记忆库
  • 指导经验模型预测
  • 确保合成经验的多样性

3. 课程任务生成器

  • 基于智能体表现自动生成新的、更具挑战性的任务

这三个组件协同工作,形成一个闭环系统,实现高效的智能体训练。

实验成果

研究人员在多个基准测试中验证了DreamGym的性能:

测试领域

  • 电子商务
  • 感官控制
  • 真实网络交互

关键数据

  • WebArena环境:训练出的智能体成功率超过基线方法30%以上
  • 全面优势:在完全模拟环境和模拟学习应用于现实世界的场景中,RL训练效果均显著提升

应用前景

DreamGym为先前难以实现RL训练的领域提供了可行的解决方案,特别是在需要大量环境交互和数据收集的应用场景中具有重要价值。

发布日期:2025年11月21日
开发团队:Meta、芝加哥大学、加州大学伯克利分校

火龙果频道