AI-NEWS · 2025年 10月 9日

谷歌推AI网页理解模型

Google发布Gemini 2.5 Computer Use：能理解网页的AI智能体模型

核心功能

网页交互能力：Gemini 2.5 Computer Use使AI智能体能够通过浏览器导航和与网页交互
视觉理解与推理：利用强大的视觉理解能力，像人类一样分析用户请求
复杂操作执行：在原本为人类设计的界面中执行复杂操作，如填写和提交表单

应用场景

UI测试：自动化用户界面测试
网页导航：为没有API或直接连接的用户提供网页导航服务
实际案例：早期版本在Mariner项目中使用，AI智能体能够根据配料清单自动将商品添加到购物车

竞争态势

OpenAI：在Google发布前一天推出新版ChatGPT应用，专注于智能体功能
Anthropic：去年已发布具有"计算机使用"功能的Claude AI模型版本

性能与限制

优势

在多个网页和移动基准测试中"优于领先的替代方案"

限制

目前仅能访问浏览器环境，不支持整个计算机环境
未针对桌面操作系统级别的控制进行优化
当前支持13种操作，包括：
- 打开网页浏览器
- 输入文本
- 拖放元素

体验方式

开发者：通过Google AI Studio和Vertex AI体验
普通用户：可通过Browserbase提供的演示体验

相关AI新闻摘要

OpenAI签署万亿级芯片协议

签署1万亿美元计算能力协议，远超其资金能力
预计2025年亏损100亿美元，年收入仅120亿美元
分析师指出公司可能无法履行承诺

Google AI编程应用Opal全球发布

在15个国家上线，包括加拿大、印度、日本等
无需编程即可创建迷你网页应用
帮助全球创作者轻松实现创意

OpenAI Sora升级

为视频生成工具Sora添加控制功能
用户可管理数字头像使用范围
增强对AI生成内容的控制

Anthropic开源Petri安全审计工具

使用AI智能体自动测试复杂AI模型行为
基于英国AISI开发的Inspect框架
已在GitHub发布

其他重要动态

斯坦福报告：25%的企业新闻稿显示大模型使用迹象
AMD：与OpenAI签署多年芯片协议，提供6GW AI计算能力
Supermemory：融资260万美元，构建通用AI内存API
Synthesia 3.0：推出可实时互动的视频头像功能

数据统计：2025年10月6-8日期间，AI领域共发布9项重要更新，涉及模型能力、芯片投资、开发工具等多个维度

火龙果频道

您可能还喜欢...