AI-NEWS · 2025年 12月 17日

IBM开源AI助手CUGA

IBM发布开源AI助手CUGA:任务完成率超60%

核心摘要

IBM研究人员近日发布了一款名为CUGA的开源AI助手,旨在自动化复杂的企业工作流程。在基准测试中,其网络任务完成率达到61.7%,展现了当前AI智能体技术的先进水平。

产品详情

  • 全称:Configurable Universal Agent(可配置通用智能体)
  • 定位:帮助知识工作者通过自动化更高效地处理日常或复杂任务。
  • 核心功能
    • 多智能体编排
    • API集成
    • 代码生成

性能表现

根据在WebArena和AppWorld基准测试中的结果:

  1. 网络任务:完成率 61.7%
  2. API任务:完成率 48.2%

尽管分数绝对值不高,但相较于其他AI智能体在类似测试中平均仅**24.4%**的完成率,CUGA的表现代表了显著的技术进步。IBM团队指出,企业工作流常涉及多策略并行,因此CUGA需要更强的策略合规能力。

技术架构与特点

  1. 工作流程
    • 首先分析用户意图,理解输入任务。
    • 将任务分解为多个子任务并进行动态重新规划。
    • 将特定子任务分配给专门的智能体执行,确保结果尽可能符合公司政策。
  2. 兼容性:与低代码平台Langflow兼容,支持集成多种开源模型。
  3. 开放性:作为开源项目发布。

潜在问题与说明

  • 在实际应用中可能存在小问题,例如偶尔无法退出运行循环。
  • IBM强调,用户在使用AI智能体软件时应保持合理预期。
  • IBM未使用其自有专有测试标准WebAgentBench来评估CUGA,这一点引发了一些关注。

行业背景

IBM认为,尽管市场对AI智能体的安全性和可靠性存在担忧,但自动化前景广阔,公司致力于通过此类工具提升工作效率。


信息来源:AIbase,发布于2025年12月16日。

火龙果频道