AI-NEWS · 2025年 8月 1日

阿里云开源WebAgent

阿里云通义实验室开源WebAgent:突破性AI搜索代理技术

项目概述

阿里云通义实验室正式开源其自主研发的搜索AI代理项目WebAgent,核心组件WebShaper和WebSailor在网络代理领域引发广泛关注。该AI工具通过端到端自主信息检索和多步推理能力,展现出近乎人类甚至超越人类的网络交互水平。

核心组件与技术亮点

WebShaper:形式化驱动的数据合成新范式

  • 创新方法:提出基于"形式化驱动"的数据合成方法,解决AI在高不确定性任务中的推理挑战
  • 技术原理
    • 使用集合论构建信息搜索任务的数学表示框架
    • 通过"知识投影"概念将复杂搜索过程抽象为实体集操作
  • 数据集特点
    • 覆盖体育(21%)、学术(17%)、政治、娱乐等多个领域
    • 分层扩展策略避免推理捷径和信息冗余

WebSailor:复杂任务中的"超级网络侦探"

  • 功能定位:作为WebAgent的"大脑",负责理解用户意图、制定浏览策略和决定操作步骤
  • 关键版本:WebSailor-72B
    • 通过阿里云FunctionAI实现一键部署(10分钟完成配置)
    • 在BrowseComp评估中超越DeepSeek R1和Grok-3等闭源模型
  • 训练创新
    • 使用SailorFog-QA数据集
    • 通过子图采样和信息模糊化技术模拟真实网络环境

性能表现

评估指标 得分 排名表现
BrowseComp 开源网络代理榜首
GAIA 60.19 优于传统数据集
WebWalkerQA 52.2 复杂任务表现出色
GAIA Pass3 64.1 (WebDancer-QwQ-32B版本)

生态系统构建

  • WebDancer:端到端代理训练框架
    • 四阶段训练:数据构建→轨迹采样→监督微调→强化学习
  • WebWalker:基准测试工具
    • 评估语言模型在复杂网络遍历中的性能

应用场景与效率

  • 商业分析:10分钟内完成特斯拉/小鹏汽车配置表爬取分析
  • 学术研究:从PubMed等数据库提取临床试验数据并生成可追溯报告
  • 日常查询:旅行规划、健康咨询等个性化推荐

开源影响

  • GitHub仓库获4000+星标,位列:
    • GitHub trending榜首
    • Huggingface月度第三
  • 提供工业级训练框架和评估标准
  • 训练策略三要素:
    1. 高难度任务合成
    2. 小规模冷启动
    3. 高效强化学习优化

未来展望

  • 推动AI代理从技术演示向生产场景过渡
  • 促进跨模态信息整合和开放域推理突破

火龙果频道