AI-NEWS · 2025年 8月 1日

阿里发布GAIA模型

阿里通义实验室发布WebAgent系列第四款开源工具WebShaper

突破性技术:从"信息驱动"到"形式驱动"的范式革新

  • 传统方法局限:传统信息检索(IS)方法采用"信息驱动"模式,常面临信息结构与推理逻辑不匹配、知识覆盖有限等问题
  • 创新解决方案:WebShaper引入"形式驱动"新范式,通过系统化任务形式化方法重构数据生成和模型训练流程
  • 核心技术:采用逻辑清晰的结构化生成方法,确保训练数据的知识结构与推理结构保持语义高度一致

性能表现:GAIA基准测试60.19分领跑开源模型

测试项目 得分 对比表现
GAIA基准 60.19 超越Claude 3.5 Sonnet和GPT-4o
WebWalkerQA基准 52.50 展现强大网络遍历能力

注:GAIA是评估AI通用能力的基准,涵盖多模态处理、网络浏览和复杂推理等高难度任务

数据集创新:逻辑驱动的训练新范式

  • SailorFog-QA数据集:采用图采样和信息模糊技术生成的高不确定性问答基准
  • 结构化生成:通过"Agentic Expander"迭代生成和验证问题,确保数据生成过程可控有序
  • 开发者反馈:社区高度评价该数据集的逻辑性和可控性,认为其为AI训练提供了更可靠基础

WebAgent生态系统发展

  • 系列工具:包含WebWalker、WebDancer、WebSailor等,覆盖学术研究、市场分析等多元场景
  • 开源生态
    • GitHub获4000+星标
    • 开发者可自由访问代码和部分数据集
    • 支持通过DUPO等强化学习优化方法调整超参数
  • 交互演示:提供WebWalkerQA和GAIA等任务的直观体验界面

未来展望

  1. 功能扩展计划:
    • 优化多模态处理能力
    • 支持更多语言和场景
    • 探索远程访问高性能模型的部署方案
  2. 开发者评价:在需要多步推理和跨模态理解的任务中表现优异
  3. 行业意义:为通用人工智能(AGI)发展奠定重要基础

技术影响:WebShaper不仅提升了开源模型竞争力,其形式驱动范式更为AI处理复杂任务开辟了新路径

火龙果频道