AI-NEWS · 2025年 10月 9日

谷歌推AI网页理解模型

Google发布Gemini 2.5 Computer Use:能理解网页的AI智能体模型

核心功能

  • 网页交互能力:Gemini 2.5 Computer Use使AI智能体能够通过浏览器导航和与网页交互
  • 视觉理解与推理:利用强大的视觉理解能力,像人类一样分析用户请求
  • 复杂操作执行:在原本为人类设计的界面中执行复杂操作,如填写和提交表单

应用场景

  • UI测试:自动化用户界面测试
  • 网页导航:为没有API或直接连接的用户提供网页导航服务
  • 实际案例:早期版本在Mariner项目中使用,AI智能体能够根据配料清单自动将商品添加到购物车

竞争态势

  • OpenAI:在Google发布前一天推出新版ChatGPT应用,专注于智能体功能
  • Anthropic:去年已发布具有"计算机使用"功能的Claude AI模型版本

性能与限制

优势

  • 在多个网页和移动基准测试中"优于领先的替代方案"

限制

  • 目前仅能访问浏览器环境,不支持整个计算机环境
  • 未针对桌面操作系统级别的控制进行优化
  • 当前支持13种操作,包括:
    • 打开网页浏览器
    • 输入文本
    • 拖放元素

体验方式

  • 开发者:通过Google AI Studio和Vertex AI体验
  • 普通用户:可通过Browserbase提供的演示体验

相关AI新闻摘要

OpenAI签署万亿级芯片协议

  • 签署1万亿美元计算能力协议,远超其资金能力
  • 预计2025年亏损100亿美元,年收入仅120亿美元
  • 分析师指出公司可能无法履行承诺

Google AI编程应用Opal全球发布

  • 在15个国家上线,包括加拿大、印度、日本等
  • 无需编程即可创建迷你网页应用
  • 帮助全球创作者轻松实现创意

OpenAI Sora升级

  • 为视频生成工具Sora添加控制功能
  • 用户可管理数字头像使用范围
  • 增强对AI生成内容的控制

Anthropic开源Petri安全审计工具

  • 使用AI智能体自动测试复杂AI模型行为
  • 基于英国AISI开发的Inspect框架
  • 已在GitHub发布

其他重要动态

  • 斯坦福报告:25%的企业新闻稿显示大模型使用迹象
  • AMD:与OpenAI签署多年芯片协议,提供6GW AI计算能力
  • Supermemory:融资260万美元,构建通用AI内存API
  • Synthesia 3.0:推出可实时互动的视频头像功能

数据统计:2025年10月6-8日期间,AI领域共发布9项重要更新,涉及模型能力、芯片投资、开发工具等多个维度

火龙果频道