AI-NEWS · 2026年 7月 4日

阿里开源 Page Agent:让大模型不再“瞎点”按钮

终于不用对着截图猜谜了

做浏览器自动化(RPA)的开发者,大概都经历过这种崩溃:传统方案要么靠截图多模态分析,要么靠底层协议硬控。网页稍微动一下,布局变了,脚本就全挂。这简直是在用“暴力破解”网页,累且容易翻车。

阿里最近开源的 Page Agent 试图把这事整明白。它不再依赖那些又贵又容易丢信息的截图,而是直接把一个轻量级的"FlatDomTree"扔进网页里。

简单说,就是让大模型像人一样,直接“看”网页的代码结构,而不是看渲染出来的画面。

这玩意儿到底能干嘛?

Page Agent 是个 JavaScript 客户端库,直接嵌在网页里跑。这带来了几个实实在在的好处:

  1. 省事儿:Cookie、登录态、会话信息,Agent 自己就能拿到。你不用再去后端写一堆繁琐的验证逻辑,连登录页都能直接点。
  2. 随便换模型:只要支持标准接口的大模型(LLM)都能用,不用被某个厂商锁死。
  3. 省钱:省去了昂贵的多模态(视觉)计算成本。

实际用在哪里?

  • 给 SaaS 产品当智能副驾驶。
  • 自动采集数据。
  • 让网页应用对残障人士更友好(无障碍访问)。

别高兴太早,还得注意几点

虽然比之前的方案强,但这东西还没法完全“放羊”。文档里写得挺清楚:

  • 范围有限:目前主要管得了一页内的操作。如果你想让它跨页面跳转(比如从登录页跳到商品页),还得靠开发者自己写代码指挥。
  • 别乱点钱:涉及支付、改数据这种高风险操作,千万别全交给 AI。服务端的验证逻辑必须守住,防止 AI 把用户钱包点了。
  • 怎么控:他们设计了一个“提示词触发”的权限机制。意思就是,只有当你(开发者)明确输入特定指令时,Agent 才能执行危险动作。算是给自动化流程加了一道安全锁。

怎么拿?

  • 地址:GitHub 上搜一下就行。
  • 协议:MIT(随便用,商用也没事)。
  • 出处:阿里巴巴。

我的想法

说实话,看到"FlatDomTree"这个设计,我挺惊讶的。以前大家总纠结怎么把截图里的像素点对应到 DOM 元素上,那是真的在跟机器较劲。现在让模型直接读 DOM 树,虽然技术难度没少,但逻辑上终于跟人类理解网页的方式对上了。

不过,我也担心跨页面场景。现在的浏览器自动化,跨页面跳转往往是最难啃的骨头。如果 Page Agent 只能搞定单页,那真正复杂的业务流(比如先登录再搜商品再下单)还得靠人类写代码串起来。

另外,关于安全那块,虽然有了提示词触发,但我还是觉得有点悬。万一提示词被用户绕过去了怎么办?或者 AI 稍微“幻觉”一下,把权限控制当成普通任务给执行了?这可能需要后续版本再花点心思打磨。

总之,这算是个不错的起点,至少让大模型在网页自动化这件事上,终于不用“瞎蒙”了。


注:本文基于开源项目文档整理,具体使用细节请以官方 GitHub 仓库为准。

火龙果频道