AgentFlow:斯坦福大学发布新一代强化学习框架
框架概述
斯坦福大学研究团队于2025年10月9日发布AgentFlow,这是一个可训练的智能体框架,通过模块化设计和工具集成来增强AI的智能决策能力。
核心架构
AgentFlow由四个核心模块组成:
- 规划器(Planner):提出子目标并选择合适的工具和上下文
- 执行器(Executor):负责调用工具
- 验证器(Verifier):决定是否继续执行
- 生成器(Generator):任务完成后提供最终答案
各模块通过显式内存进行协调。
创新训练方法:Flow-GRPO
该框架的核心创新在于其训练方法——基于流的组优化策略(Flow-based Group Refinement Policy Optimization):
- 将长期、稀疏的奖励优化问题转化为可管理的单轮更新
- 在每个步骤广播单一可验证的轨迹级信号
- 将成功的全局目标与局部步骤对齐
- 使用加权比率逐令牌计算,结合PPO式裁剪和KL惩罚,防止策略漂移
性能表现
研究团队在多个基准测试中评估了AgentFlow,涵盖四类任务:
任务类型 | 平均提升幅度 |
---|---|
知识密集型搜索 | 14.9% |
智能体推理 | 14.0% |
数学任务 | 14.5% |
科学任务 | 4.1% |
在10个基准测试中,经Flow-GRPO优化的7B模型表现优异,超越了现有的强基线模型,甚至在某些方面超过了GPT-4o。
工具调用可靠性
使用AgentFlow的工具调用可靠性显著提升:
- 工具调用错误率降低28.4%
- 随着轮次预算和模型规模的增大,规划质量得到显著改善
开源与可用性
- 采用MIT许可证,确保开源和可访问性
- 提供模块化工具包和快速启动脚本
- 支持推理、训练和基准测试
- 促进广泛的研究和开发工作