AI-NEWS · 2024年 12月 27日

智谱AI开源任务模型CogAgent-9B:截图预测行动

CogAgent-9B 模型开源:推动大模型代理生态系统的发展

Zhipu AI 最近将其基础模型 CogAgent-9B 开源,旨在促进大型模型代理生态系统的开发。CogAgent-9B 是基于 GLM-4V-9B 训练的专用代理任务模型,能够仅通过截图输入并结合历史操作记录来预测下一步GUI操作。

模型特点

  • 多功能性:适用于个人电脑、手机和车载设备等多种GUI交互场景。
  • 改进功能
    • 相比2023年12月开源的第一版CogAgent模型,CogAgent-9B-20241220在GUI感知、推理预测准确度、动作空间完整性、任务通用性和泛化能力等方面显著提升。
    • 支持中英文双语互动。

输入与输出

  • 输入:仅需用户自然语言指令、执行历史记录和GUI截图,无需任何布局信息或额外的元素标签文本。
  • 输出
    • 思维过程
    • 下一步操作的自然语言描述
    • 下一步操作的结构化描述
    • 下一步操作的敏感性评估

性能测试结果

在多数据集的性能测试中,CogAgent-9B-20241220展现了其在GUI定位、单步操作、中文逐步排名和多步操作方面的领先优势。此举措不仅推进了大模型技术的发展,还为视觉障碍IT专业人士提供了新的工具和可能性。

模型来源

  • Huggingface
  • Modao Community

版权所有©AIbase Base 2024,点击查看源代码。

Source:https://www.aibase.com/news/14296