Google发布Gemini 2.5 Computer Use:能理解网页的AI智能体模型
核心功能
- 网页交互能力:Gemini 2.5 Computer Use使AI智能体能够通过浏览器导航和与网页交互
- 视觉理解与推理:利用强大的视觉理解能力,像人类一样分析用户请求
- 复杂操作执行:在原本为人类设计的界面中执行复杂操作,如填写和提交表单
应用场景
- UI测试:自动化用户界面测试
- 网页导航:为没有API或直接连接的用户提供网页导航服务
- 实际案例:早期版本在Mariner项目中使用,AI智能体能够根据配料清单自动将商品添加到购物车
竞争态势
- OpenAI:在Google发布前一天推出新版ChatGPT应用,专注于智能体功能
- Anthropic:去年已发布具有"计算机使用"功能的Claude AI模型版本
性能与限制
优势
- 在多个网页和移动基准测试中"优于领先的替代方案"
限制
- 目前仅能访问浏览器环境,不支持整个计算机环境
- 未针对桌面操作系统级别的控制进行优化
- 当前支持13种操作,包括:
- 打开网页浏览器
- 输入文本
- 拖放元素
体验方式
- 开发者:通过Google AI Studio和Vertex AI体验
- 普通用户:可通过Browserbase提供的演示体验
相关AI新闻摘要
OpenAI签署万亿级芯片协议
- 签署1万亿美元计算能力协议,远超其资金能力
- 预计2025年亏损100亿美元,年收入仅120亿美元
- 分析师指出公司可能无法履行承诺
Google AI编程应用Opal全球发布
- 在15个国家上线,包括加拿大、印度、日本等
- 无需编程即可创建迷你网页应用
- 帮助全球创作者轻松实现创意
OpenAI Sora升级
- 为视频生成工具Sora添加控制功能
- 用户可管理数字头像使用范围
- 增强对AI生成内容的控制
Anthropic开源Petri安全审计工具
- 使用AI智能体自动测试复杂AI模型行为
- 基于英国AISI开发的Inspect框架
- 已在GitHub发布
其他重要动态
- 斯坦福报告:25%的企业新闻稿显示大模型使用迹象
- AMD:与OpenAI签署多年芯片协议,提供6GW AI计算能力
- Supermemory:融资260万美元,构建通用AI内存API
- Synthesia 3.0:推出可实时互动的视频头像功能
数据统计:2025年10月6-8日期间,AI领域共发布9项重要更新,涉及模型能力、芯片投资、开发工具等多个维度