清华大学发布AutoDroid-V2模型
近日,清华大学智能产业研究院(AIR)于2024年12月24日发布了名为AutoDroid-V2的AI模型。该模型旨在优化移动设备的自动化控制能力,并通过采用小型语言模型提高了用户操作效率。
主要特点
- 脚本驱动方法:与传统依赖大型基于云的语言模型(LLMs)的方法不同,AutoDroid-V2采用了基于脚本的方法。这使得设备可以高效地执行用户的命令,减少了对云服务的依赖,从而显著提升了隐私和安全性。
- 减少数据消耗和运营成本:该创新还降低了用户端的数据使用量和服务器端的操作成本,推动了移动设备的大规模应用。
项目背景
近年来大型语言模型和视觉语言模型的发展使得通过自然语言命令控制移动设备成为可能。这些技术为解决复杂用户任务提供了新的途径。然而,传统的“逐步GUI代理”方法面临数据消耗高以及隐私安全风险等挑战,阻碍了大规模部署。
创新点
- 多步骤脚本生成:AutoDroid-V2能根据用户命令生成多步操作脚本,一次性执行多个GUI操作。这显著降低了查询频率和资源消耗,并能在用户设备上直接生成并执行任务脚本。
- 离线构建应用文档:模型以离线模式构建应用程序文档,为后续的脚本生成奠定了基础。
性能测试
在对23个移动应用程序共226项任务进行基准测试中,AutoDroid-V2与之前的模型(如AutoDroid和SeeClick)相比,任务完成率提高了10.5至51.7个百分点。此外,输入和输出令牌消耗分别降低到143.5和15.8个,而模型推理延迟也减少到了原值的15.7%到113.4%,这展示了AutoDroid-V2在实际应用中的高效性和可靠性。
关键点
- AutoDroid-V2是清华大学发布的新型AI模型,提升了移动设备通过自然语言进行控制的效率。
- 该模型通过使用小型语言模型减少了对云服务的依赖性,从而增强了用户隐私和安全性。
- 基准测试结果表明AutoDroid-V2在任务完成率和资源消耗方面有显著改进,展示了其强大的应用潜力。