阿里云通义实验室开源WebAgent:突破性AI搜索代理技术
项目概述
阿里云通义实验室正式开源其自主研发的搜索AI代理项目WebAgent,核心组件WebShaper和WebSailor在网络代理领域引发广泛关注。该AI工具通过端到端自主信息检索和多步推理能力,展现出近乎人类甚至超越人类的网络交互水平。
核心组件与技术亮点
WebShaper:形式化驱动的数据合成新范式
- 创新方法:提出基于"形式化驱动"的数据合成方法,解决AI在高不确定性任务中的推理挑战
- 技术原理:
- 使用集合论构建信息搜索任务的数学表示框架
- 通过"知识投影"概念将复杂搜索过程抽象为实体集操作
- 数据集特点:
- 覆盖体育(21%)、学术(17%)、政治、娱乐等多个领域
- 分层扩展策略避免推理捷径和信息冗余
WebSailor:复杂任务中的"超级网络侦探"
- 功能定位:作为WebAgent的"大脑",负责理解用户意图、制定浏览策略和决定操作步骤
- 关键版本:WebSailor-72B
- 通过阿里云FunctionAI实现一键部署(10分钟完成配置)
- 在BrowseComp评估中超越DeepSeek R1和Grok-3等闭源模型
- 训练创新:
- 使用SailorFog-QA数据集
- 通过子图采样和信息模糊化技术模拟真实网络环境
性能表现
评估指标 | 得分 | 排名表现 |
---|---|---|
BrowseComp | – | 开源网络代理榜首 |
GAIA | 60.19 | 优于传统数据集 |
WebWalkerQA | 52.2 | 复杂任务表现出色 |
GAIA Pass3 | 64.1 | (WebDancer-QwQ-32B版本) |
生态系统构建
- WebDancer:端到端代理训练框架
- 四阶段训练:数据构建→轨迹采样→监督微调→强化学习
- WebWalker:基准测试工具
- 评估语言模型在复杂网络遍历中的性能
应用场景与效率
- 商业分析:10分钟内完成特斯拉/小鹏汽车配置表爬取分析
- 学术研究:从PubMed等数据库提取临床试验数据并生成可追溯报告
- 日常查询:旅行规划、健康咨询等个性化推荐
开源影响
- GitHub仓库获4000+星标,位列:
- GitHub trending榜首
- Huggingface月度第三
- 提供工业级训练框架和评估标准
- 训练策略三要素:
- 高难度任务合成
- 小规模冷启动
- 高效强化学习优化
未来展望
- 推动AI代理从技术演示向生产场景过渡
- 促进跨模态信息整合和开放域推理突破