IBM发布开源AI助手CUGA:任务完成率超60%
核心摘要
IBM研究人员近日发布了一款名为CUGA的开源AI助手,旨在自动化复杂的企业工作流程。在基准测试中,其网络任务完成率达到61.7%,展现了当前AI智能体技术的先进水平。
产品详情
- 全称:Configurable Universal Agent(可配置通用智能体)
- 定位:帮助知识工作者通过自动化更高效地处理日常或复杂任务。
- 核心功能:
- 多智能体编排
- API集成
- 代码生成
性能表现
根据在WebArena和AppWorld基准测试中的结果:
- 网络任务:完成率 61.7%
- API任务:完成率 48.2%
尽管分数绝对值不高,但相较于其他AI智能体在类似测试中平均仅**24.4%**的完成率,CUGA的表现代表了显著的技术进步。IBM团队指出,企业工作流常涉及多策略并行,因此CUGA需要更强的策略合规能力。
技术架构与特点
- 工作流程:
- 首先分析用户意图,理解输入任务。
- 将任务分解为多个子任务并进行动态重新规划。
- 将特定子任务分配给专门的智能体执行,确保结果尽可能符合公司政策。
- 兼容性:与低代码平台Langflow兼容,支持集成多种开源模型。
- 开放性:作为开源项目发布。
潜在问题与说明
- 在实际应用中可能存在小问题,例如偶尔无法退出运行循环。
- IBM强调,用户在使用AI智能体软件时应保持合理预期。
- IBM未使用其自有专有测试标准WebAgentBench来评估CUGA,这一点引发了一些关注。
行业背景
IBM认为,尽管市场对AI智能体的安全性和可靠性存在担忧,但自动化前景广阔,公司致力于通过此类工具提升工作效率。
信息来源:AIbase,发布于2025年12月16日。
