AI-NEWS · 2025年 10月 31日

微软发布AI训练框架

Microsoft发布Agent Lightning:基于强化学习的大语言模型训练新框架

核心概述

微软近日推出Agent Lightning开源框架,旨在通过强化学习优化多智能体系统。该框架能够在不改变现有智能体架构的情况下,将真实智能体行为转换为强化学习转换数据,从而提升大规模语言模型的性能。

技术架构

智能体建模

  • 将智能体建模为部分可观测马尔可夫决策过程
  • 智能体观察:当前输入
  • 智能体动作:模型调用
  • 奖励机制:终端奖励或中间奖励

数据处理流程

框架提取智能体模型的调用日志,包含输入、输出和奖励信息,过滤掉不必要的噪声,生成干净的转换数据用于训练。

系统设计

采用"训练与部署解耦"架构:

  • Lightning Server:负责训练和服务,提供兼容OpenAI的API接口
  • Lightning Client:在现有智能体运行时捕获调用日志,实时将数据发送回服务器

这种设计保持了与工具、浏览器等依赖项的紧密集成,同时将GPU训练置于服务器层。

追踪路径支持

  • 默认路径:使用OpenTelemetry进行数据收集,便于将智能体遥测信息发送到标准收集器
  • 轻量级嵌入式追踪器:适用于不希望部署OpenTelemetry的团队
  • 所有数据最终存储在相同位置用于训练目的

实验验证

研究团队评估了三个任务:

1. 文本转SQL

  • 使用Spider基准测试
  • 覆盖10,000+问题200个数据库

2. 检索增强生成

  • 使用MuSiQue基准测试
  • 基于包含2100万文档的维基百科规模索引

3. 数学问答

  • 使用Calc X数据集
  • 通过工具调用执行计算

在所有任务上的训练都显示出稳定的奖励提升。

关键特点

  • 无需重构现有系统即可优化多智能体系统
  • 提取干净的训练转换数据
  • 在文本转SQL、检索增强生成和数学问答等任务上表现出显著性能改进

火龙果频道