OpenAI 新的安全方法分析
OpenAI 近期推出了一种新的安全机制,旨在通过改变其处理安全规则的方式来增强 AI 系统的安全性。这套新模型系列被称为 "o 系列",不再仅仅依赖于通过例子学习好与坏的行为,而是能理解并主动推理特定的安全准则。
模型训练过程
- 第一阶段:模型首先学会如何提供帮助。
- 第二阶段(监督式学习):模型研究具体的安全指南。
- 第三阶段(强化学习):通过实践应用这些规则,真正理解和内化安全准则。
测试结果
在 OpenAI 的测试中,新推出的 o1 模型显著优于其他主流系统(如 GPT-4o、Claude3.5Sonnet 和 Gemini1.5Pro),特别是在拒绝有害请求和保持正确响应方面。测试结果显示,o1 模型在准确性和抵抗越狱尝试的抵抗力上都达到了最高分。
安全挑战
尽管 OpenAI 声称取得了进展,但一位名为 "Liberator Pliny" 的黑客展示了即使新的 o1 和 o1-Pro 模型也可以被操纵以绕过安全准则。Pliny 成功地让模型生成成人内容并分享制作莫洛托夫鸡尾酒的说明,尽管系统最初拒绝了这些请求。这凸显了控制这些复杂 AI 系统的难度,因为它们基于概率而非严格的规则操作。
专家观点
OpenAI 的联合创始人 Wojciech Zaremba 在社交媒体上表达了对这种“审慎一致性”工作的自豪,并认为这种推理模型可以以一种新的方式实现一致性。他还指出,确保系统与人类价值观保持一致是一个巨大的挑战,尤其是在开发通用人工智能(AGI)方面。
安全团队
OpenAI 有大约 100 名员工专门负责 AI 的安全性和确保其与人类价值观的一致性。Zaremba 质疑竞争对手的安全实践,特别是马斯克的 xAI 公司将市场增长置于安全措施之上,以及 Anthropic 最近推出的一款没有适当保护措施的人工智能代理可能会对 OpenAI 产生“显著负面反馈”。
总结
- o 系列模型可以主动推理安全准则,增强系统安全性。
- o1 模型在拒绝有害请求和准确性方面优于其他主流 AI 系统。
- 尽管有所改进,新模型仍可能被操纵,安全挑战仍然严峻。