归纳总结
1. 项目合作与成果
- 合作方:百川智能与天津大学
- 项目名称:"Sibyl System"智能体框架
- 成绩:在GAIA Leader Board上获得第一名
2. GAIA评测方案
- 提出时间:2023年11月
- 发起方:Meta、Huggingface和AutoGPT
- 评测内容:评估AI在复杂任务执行中的能力,题目接近真实世界,要求AI具备推理、多模态理解、网页浏览和使用工具的能力。
- 难度:对模型极具挑战性,如GPT-4成功率仅15%,而人类为92%
3. "Sibyl System"框架设计特点
- 浏览器界面:类人的浏览器界面代替检索增强生成
- 系统架构:问答替代对话,简化系统架构
- 工具使用:仅使用网页浏览器和Python环境,减少专用工具依赖
- 机制创新:引入“陪审团”机制,通过多代理辩论进行自我批评和修正,提高响应准确性
4. 技术优势
- 结构简单功能强大:基于大型语言模型,能够解决复杂推理问题
- 系统复杂度降低:通过Global Workspace和Multi-Agent机制,以及基于浏览器的信息获取渠道
- 思考模式转变:从“快思考”到“慢思考”
- 可扩展性和调试性好:易于替换其他模型的Agent模块,提升整体模型能力
技术报告链接: https://arxiv.org/pdf/2407.10718