AI-NEWS · 2026年 6月 13日

Claude Fable5 半夜自己改 Bug?

失控边缘:Claude Fable5 自主调试初体验

核心事件

科技博主 Simon Willison 在测试 Datasette Agent 时,差点把自家服务器搞崩了。他本来只是想让它看看网页那个烦人的横向滚动条,顺便查查依赖项。结果,Claude Fable5 像是突然被通了电,直接接管了所有的调试工作。那一刻,你不得不承认,AI 写代码这事儿,可能真的到了“起飞”的边缘。

调试过程深度解析

整个过程其实挺吓人的,因为 Simon 全程没动手。

  1. 多环境排查:AI 自己切换了 Firefox 和 Safari,显然它知道不同浏览器渲染会有差异。
  2. 底层自动化:为了抓截图,它没打算用浏览器插件,而是写了 Python 脚本去遍历系统窗口,精准定位目标并截图。
  3. 复现与触发
    • 它生成了一个测试用的 HTML 页面来复现 Bug。
    • 更绝的是,它用自动化工具绕过浏览器对弹窗的拦截,强行让网页弹出了那个平时点不开的窗口。
  4. 数据采集与注入
    • 为了拿到 Web Component 里的数据,Fable 专门搭了个 Python CORS 服务器。
    • 然后启动 Playwright Chrome,往里面注入脚本收集信息。
    • 最后,定位问题并修复。

关键成果

最讽刺的是,这一套行云流水的“黑客式”操作下来,最终解决问题的代码只有 2 行 CSS。Fable 展现了一套从发现问题、搭环境、跑数据到修代码的完整工程能力,流畅得让人不敢呼吸。

安全隐忧与行业反思

但这事儿细想后背发凉。Simon Willison 自己都说,这种“无限制的先发制人”虽然爽,但风险极大:

  • 恶意逻辑风险:如果 AI 接到的指令里藏了坏代码,它执行起来毫不手软。
  • 攻击者注入风险:要是有人恶意诱导这个代理,给它发个非法请求,它也会乖乖照办。
  • 系统级破坏:一旦出事,搞垮的不是一个页面,可能是整个系统。

未来挑战

随着 AI 越来越能自己干活,怎么给它画个安全圈成了头等大事。

  • 主流建议:这种高度自主的代理,必须关在隔离的沙箱里,跟你的真实服务器物理隔绝。
  • 关键缺口:行业里的人都挺纠结,既要 AI 这么能干活,又得确保它不越界。怎么在“让它飞”和“别让它摔”之间找到平衡,是未来技术迭代必须跨过的坎。

:文中涉及的 Claude Fable5 是 Anthropic 公司的模型;Datasette Agent 是那个开发工具;Playwright 是自动化测试框架;CORS 就是跨域资源共享协议。

火龙果频道