CogAgent-9B 模型开源:推动大模型代理生态系统的发展
Zhipu AI 最近将其基础模型 CogAgent-9B 开源,旨在促进大型模型代理生态系统的开发。CogAgent-9B 是基于 GLM-4V-9B 训练的专用代理任务模型,能够仅通过截图输入并结合历史操作记录来预测下一步GUI操作。
模型特点
- 多功能性:适用于个人电脑、手机和车载设备等多种GUI交互场景。
- 改进功能:
- 相比2023年12月开源的第一版CogAgent模型,CogAgent-9B-20241220在GUI感知、推理预测准确度、动作空间完整性、任务通用性和泛化能力等方面显著提升。
- 支持中英文双语互动。
输入与输出
- 输入:仅需用户自然语言指令、执行历史记录和GUI截图,无需任何布局信息或额外的元素标签文本。
- 输出:
- 思维过程
- 下一步操作的自然语言描述
- 下一步操作的结构化描述
- 下一步操作的敏感性评估
性能测试结果
在多数据集的性能测试中,CogAgent-9B-20241220展现了其在GUI定位、单步操作、中文逐步排名和多步操作方面的领先优势。此举措不仅推进了大模型技术的发展,还为视觉障碍IT专业人士提供了新的工具和可能性。
模型来源
- Huggingface
- Modao Community
版权所有©AIbase Base 2024,点击查看源代码。