AI-NEWS · 2025年 10月 10日

斯坦福发布AgentFlow框架

AgentFlow:斯坦福大学发布新一代强化学习框架

框架概述

斯坦福大学研究团队于2025年10月9日发布AgentFlow,这是一个可训练的智能体框架,通过模块化设计和工具集成来增强AI的智能决策能力。

核心架构

AgentFlow由四个核心模块组成:

  • 规划器(Planner):提出子目标并选择合适的工具和上下文
  • 执行器(Executor):负责调用工具
  • 验证器(Verifier):决定是否继续执行
  • 生成器(Generator):任务完成后提供最终答案

各模块通过显式内存进行协调。

创新训练方法:Flow-GRPO

该框架的核心创新在于其训练方法——基于流的组优化策略(Flow-based Group Refinement Policy Optimization):

  • 将长期、稀疏的奖励优化问题转化为可管理的单轮更新
  • 在每个步骤广播单一可验证的轨迹级信号
  • 将成功的全局目标与局部步骤对齐
  • 使用加权比率逐令牌计算,结合PPO式裁剪和KL惩罚,防止策略漂移

性能表现

研究团队在多个基准测试中评估了AgentFlow,涵盖四类任务:

任务类型 平均提升幅度
知识密集型搜索 14.9%
智能体推理 14.0%
数学任务 14.5%
科学任务 4.1%

在10个基准测试中,经Flow-GRPO优化的7B模型表现优异,超越了现有的强基线模型,甚至在某些方面超过了GPT-4o。

工具调用可靠性

使用AgentFlow的工具调用可靠性显著提升:

  • 工具调用错误率降低28.4%
  • 随着轮次预算和模型规模的增大,规划质量得到显著改善

开源与可用性

  • 采用MIT许可证,确保开源和可访问性
  • 提供模块化工具包和快速启动脚本
  • 支持推理、训练和基准测试
  • 促进广泛的研究和开发工作

火龙果频道