核心发现
Anthropic 最近摊牌了,分享他们在开发 Claude.ai、Claude Code 和 Claude Cowork 时怎么搞安全隔离的。虽然这三款产品面对的人群不一样——普通用户、开发者、企业客户——用的策略也都不同,但有个雷打不动的原则:先把环境层隔离好。
三种隔离方案,各有脾气
Anthropic 针对不同用户,搞了三层隔离,但每一层的“性格”都挺鲜明:
1. 普通用户:用完即焚的临时容器 (claude.ai)
- 技术实现:用的是 gVisor 这种临时容器技术。
- 怎么运作的:你点一次会话,系统就给你生一个临时容器;你聊完走了,容器立马销毁,不留后患。
- 为啥这么干:就是为了让交互像短跑一样,既安全又省事。权限给得少,就算 AI 跑偏了,影响也局限在那几分钟里,不会把家底都搭进去。
2. 开发者:操作系统级的沙盒 (Claude Code)
- 技术实现:直接上操作系统级的沙盒。
- 默认策略:开发者一上来默认没网。
- 实际效果:这招挺管用,因为默认没网,那些烦人的权限提示少了很多。数据跑出来,权限提示的频率直接降了 84%。
- 需要联网怎么办:真得上网的时候,开发者自己点一下授权,临时开个口子。
3. 企业用户:虚拟机级硬隔离 (Claude Cowork)
- 技术实现:虚拟机级隔离。
- 安全逻辑:跟企业内网彻底物理切断,安全感拉满。
- 代价:安全性是上去了,但跟宿主系统的集成变得很费劲,监控起来也麻烦。这就像为了防贼把门焊死,结果自己人进出都得按指纹。
现实很骨感:提示词注入依然致命
文章里提了几起安全事件,最让人心里发毛的是那个提示词注入 (Prompt Injection)。
- 测试数据:他们试了 24 次,结果提示词注入成功的有 96%。
- 其他风险:还有那种偷 API Key 盗数据的。
- 现实意味着什么:这说明现在的防御手段,面对这种高级别的攻击,基本是裸奔。Anthropic 自己也承认,光靠现有的架构是扛不住的,得赶紧改。
三条原则,但听着有点“虚”
基于这些惨痛的教训,Anthropic 总结了三条原则,听起来挺专业,但细想有点绕:
- 隔离优先于模型层:尽量在环境层隔离,只在模型层给点引导。
- 隔离强度匹配监管能力:隔离得有多严,得看你能不能管得住。别为了保险把路全堵死,也别因为信任就裸奔。
- 警惕组件定义:系统里的各个组件边界要划清楚,别搞成模糊地带。
我的想法:这三条原则确实重要,尤其是第一条。随着大模型越来越聪明,光靠模型层那套东西确实不够看了,环境层的隔离成了底线。而且,第二条原则其实挺有意思——它承认了 AI 有时候就是管不住的,所以隔离强度得跟着“监管能力”走。如果公司里没人盯着,那隔离就得严到死;如果监管到位,隔离就可以松一点。这种动态调整的思路,比那种“一刀切”的防御要现实得多。
注:文中提到的安全事件数据来自 Anthropic 的公开分享,但关于提示词注入的防御细节,目前看来还是个大坑,具体怎么补,还得看后续更新。
