Microsoft发布Agent Lightning：基于强化学习的大语言模型训练新框架

核心概述

微软近日推出Agent Lightning开源框架，旨在通过强化学习优化多智能体系统。该框架能够在不改变现有智能体架构的情况下，将真实智能体行为转换为强化学习转换数据，从而提升大规模语言模型的性能。

技术架构

智能体建模

将智能体建模为部分可观测马尔可夫决策过程
智能体观察：当前输入
智能体动作：模型调用
奖励机制：终端奖励或中间奖励

数据处理流程

框架提取智能体模型的调用日志，包含输入、输出和奖励信息，过滤掉不必要的噪声，生成干净的转换数据用于训练。

系统设计

采用"训练与部署解耦"架构：

Lightning Server：负责训练和服务，提供兼容OpenAI的API接口
Lightning Client：在现有智能体运行时捕获调用日志，实时将数据发送回服务器

这种设计保持了与工具、浏览器等依赖项的紧密集成，同时将GPU训练置于服务器层。

追踪路径支持

默认路径：使用OpenTelemetry进行数据收集，便于将智能体遥测信息发送到标准收集器
轻量级嵌入式追踪器：适用于不希望部署OpenTelemetry的团队
所有数据最终存储在相同位置用于训练目的

实验验证

研究团队评估了三个任务：

1. 文本转SQL

使用Spider基准测试
覆盖10,000+问题和200个数据库

2. 检索增强生成

使用MuSiQue基准测试
基于包含2100万文档的维基百科规模索引

3. 数学问答

使用Calc X数据集
通过工具调用执行计算

在所有任务上的训练都显示出稳定的奖励提升。

关键特点

无需重构现有系统即可优化多智能体系统
提取干净的训练转换数据
在文本转SQL、检索增强生成和数学问答等任务上表现出显著性能改进

火龙果频道

近期新闻

AI-NEWS · 2025年 10月 31日

微软发布AI训练框架

Microsoft发布Agent Lightning：基于强化学习的大语言模型训练新框架

核心概述

技术架构

智能体建模

数据处理流程

系统设计

追踪路径支持

实验验证

1. 文本转SQL

2. 检索增强生成

3. 数学问答

关键特点

您可能还喜欢...

AI-NEWS · 2025年 10月 31日

Microsoft发布Agent Lightning：基于强化学习的大语言模型训练新框架

核心概述

技术架构

智能体建模

数据处理流程

系统设计

追踪路径支持

实验验证

1. 文本转SQL

2. 检索增强生成

3. 数学问答

关键特点

您可能还喜欢...

百度推出无代码工具“淼大”

AI发布2D转3D视频模型

英伟达发布全球最大生物AI模型