Anthropic 的安全策略：隔离还是过度防御？

核心发现

Anthropic 最近摊牌了，分享他们在开发 Claude.ai、Claude Code 和 Claude Cowork 时怎么搞安全隔离的。虽然这三款产品面对的人群不一样——普通用户、开发者、企业客户——用的策略也都不同，但有个雷打不动的原则：先把环境层隔离好。

三种隔离方案，各有脾气

Anthropic 针对不同用户，搞了三层隔离，但每一层的“性格”都挺鲜明：

1. 普通用户：用完即焚的临时容器 (claude.ai)

技术实现：用的是 gVisor 这种临时容器技术。
怎么运作的：你点一次会话，系统就给你生一个临时容器；你聊完走了，容器立马销毁，不留后患。
为啥这么干：就是为了让交互像短跑一样，既安全又省事。权限给得少，就算 AI 跑偏了，影响也局限在那几分钟里，不会把家底都搭进去。

2. 开发者：操作系统级的沙盒 (Claude Code)

技术实现：直接上操作系统级的沙盒。
默认策略：开发者一上来默认没网。
实际效果：这招挺管用，因为默认没网，那些烦人的权限提示少了很多。数据跑出来，权限提示的频率直接降了 84%。
需要联网怎么办：真得上网的时候，开发者自己点一下授权，临时开个口子。

3. 企业用户：虚拟机级硬隔离 (Claude Cowork)

技术实现：虚拟机级隔离。
安全逻辑：跟企业内网彻底物理切断，安全感拉满。
代价：安全性是上去了，但跟宿主系统的集成变得很费劲，监控起来也麻烦。这就像为了防贼把门焊死，结果自己人进出都得按指纹。

现实很骨感：提示词注入依然致命

文章里提了几起安全事件，最让人心里发毛的是那个提示词注入 (Prompt Injection)。

测试数据：他们试了 24 次，结果提示词注入成功的有 96%。
其他风险：还有那种偷 API Key 盗数据的。
现实意味着什么：这说明现在的防御手段，面对这种高级别的攻击，基本是裸奔。Anthropic 自己也承认，光靠现有的架构是扛不住的，得赶紧改。

三条原则，但听着有点“虚”

基于这些惨痛的教训，Anthropic 总结了三条原则，听起来挺专业，但细想有点绕：

隔离优先于模型层：尽量在环境层隔离，只在模型层给点引导。
隔离强度匹配监管能力：隔离得有多严，得看你能不能管得住。别为了保险把路全堵死，也别因为信任就裸奔。
警惕组件定义：系统里的各个组件边界要划清楚，别搞成模糊地带。

我的想法：这三条原则确实重要，尤其是第一条。随着大模型越来越聪明，光靠模型层那套东西确实不够看了，环境层的隔离成了底线。而且，第二条原则其实挺有意思——它承认了 AI 有时候就是管不住的，所以隔离强度得跟着“监管能力”走。如果公司里没人盯着，那隔离就得严到死；如果监管到位，隔离就可以松一点。这种动态调整的思路，比那种“一刀切”的防御要现实得多。

注：文中提到的安全事件数据来自 Anthropic 的公开分享，但关于提示词注入的防御细节，目前看来还是个大坑，具体怎么补，还得看后续更新。

火龙果频道

近期新闻

AI-NEWS · 2026年 6月 5日

核心发现

三种隔离方案，各有脾气

1. 普通用户：用完即焚的临时容器 (claude.ai)

2. 开发者：操作系统级的沙盒 (Claude Code)

3. 企业用户：虚拟机级硬隔离 (Claude Cowork)

现实很骨感：提示词注入依然致命

三条原则，但听着有点“虚”

您可能还喜欢...

AI-NEWS · 2026年 6月 5日

核心发现

三种隔离方案，各有脾气

1. 普通用户：用完即焚的临时容器 (claude.ai)

2. 开发者：操作系统级的沙盒 (Claude Code)

3. 企业用户：虚拟机级硬隔离 (Claude Cowork)

现实很骨感：提示词注入依然致命

三条原则，但听着有点“虚”

您可能还喜欢...

蚂蚁“爱福”上线免费体检解读

百度世界大会2024：iRAG技术解决图像生成问题

佳士得首拍AI艺术品