阿里开源 Page Agent：让大模型不再“瞎点”按钮

终于不用对着截图猜谜了

做浏览器自动化（RPA）的开发者，大概都经历过这种崩溃：传统方案要么靠截图多模态分析，要么靠底层协议硬控。网页稍微动一下，布局变了，脚本就全挂。这简直是在用“暴力破解”网页，累且容易翻车。

阿里最近开源的 Page Agent 试图把这事整明白。它不再依赖那些又贵又容易丢信息的截图，而是直接把一个轻量级的"FlatDomTree"扔进网页里。

简单说，就是让大模型像人一样，直接“看”网页的代码结构，而不是看渲染出来的画面。

Page Agent 是个 JavaScript 客户端库，直接嵌在网页里跑。这带来了几个实实在在的好处：

实际用在哪里？

虽然比之前的方案强，但这东西还没法完全“放羊”。文档里写得挺清楚：

范围有限：目前主要管得了一页内的操作。如果你想让它跨页面跳转（比如从登录页跳到商品页），还得靠开发者自己写代码指挥。
别乱点钱：涉及支付、改数据这种高风险操作，千万别全交给 AI。服务端的验证逻辑必须守住，防止 AI 把用户钱包点了。
怎么控：他们设计了一个“提示词触发”的权限机制。意思就是，只有当你（开发者）明确输入特定指令时，Agent 才能执行危险动作。算是给自动化流程加了一道安全锁。

说实话，看到"FlatDomTree"这个设计，我挺惊讶的。以前大家总纠结怎么把截图里的像素点对应到 DOM 元素上，那是真的在跟机器较劲。现在让模型直接读 DOM 树，虽然技术难度没少，但逻辑上终于跟人类理解网页的方式对上了。

不过，我也担心跨页面场景。现在的浏览器自动化，跨页面跳转往往是最难啃的骨头。如果 Page Agent 只能搞定单页，那真正复杂的业务流（比如先登录再搜商品再下单）还得靠人类写代码串起来。

另外，关于安全那块，虽然有了提示词触发，但我还是觉得有点悬。万一提示词被用户绕过去了怎么办？或者 AI 稍微“幻觉”一下，把权限控制当成普通任务给执行了？这可能需要后续版本再花点心思打磨。

总之，这算是个不错的起点，至少让大模型在网页自动化这件事上，终于不用“瞎蒙”了。

注：本文基于开源项目文档整理，具体使用细节请以官方 GitHub 仓库为准。