Microsoft发布Agent Lightning:基于强化学习的大语言模型训练新框架
核心概述
微软近日推出Agent Lightning开源框架,旨在通过强化学习优化多智能体系统。该框架能够在不改变现有智能体架构的情况下,将真实智能体行为转换为强化学习转换数据,从而提升大规模语言模型的性能。
技术架构
智能体建模
- 将智能体建模为部分可观测马尔可夫决策过程
- 智能体观察:当前输入
- 智能体动作:模型调用
- 奖励机制:终端奖励或中间奖励
数据处理流程
框架提取智能体模型的调用日志,包含输入、输出和奖励信息,过滤掉不必要的噪声,生成干净的转换数据用于训练。
系统设计
采用"训练与部署解耦"架构:
- Lightning Server:负责训练和服务,提供兼容OpenAI的API接口
- Lightning Client:在现有智能体运行时捕获调用日志,实时将数据发送回服务器
这种设计保持了与工具、浏览器等依赖项的紧密集成,同时将GPU训练置于服务器层。
追踪路径支持
- 默认路径:使用OpenTelemetry进行数据收集,便于将智能体遥测信息发送到标准收集器
- 轻量级嵌入式追踪器:适用于不希望部署OpenTelemetry的团队
- 所有数据最终存储在相同位置用于训练目的
实验验证
研究团队评估了三个任务:
1. 文本转SQL
- 使用Spider基准测试
- 覆盖10,000+问题和200个数据库
2. 检索增强生成
- 使用MuSiQue基准测试
- 基于包含2100万文档的维基百科规模索引
3. 数学问答
- 使用Calc X数据集
- 通过工具调用执行计算
在所有任务上的训练都显示出稳定的奖励提升。
关键特点
- 无需重构现有系统即可优化多智能体系统
- 提取干净的训练转换数据
- 在文本转SQL、检索增强生成和数学问答等任务上表现出显著性能改进
