OpenAI 新的安全方法分析

OpenAI 近期推出了一种新的安全机制，旨在通过改变其处理安全规则的方式来增强 AI 系统的安全性。这套新模型系列被称为 "o 系列"，不再仅仅依赖于通过例子学习好与坏的行为，而是能理解并主动推理特定的安全准则。

模型训练过程

第一阶段：模型首先学会如何提供帮助。
第二阶段（监督式学习）：模型研究具体的安全指南。
第三阶段（强化学习）：通过实践应用这些规则，真正理解和内化安全准则。

测试结果

在 OpenAI 的测试中，新推出的 o1 模型显著优于其他主流系统（如 GPT-4o、Claude3.5Sonnet 和 Gemini1.5Pro），特别是在拒绝有害请求和保持正确响应方面。测试结果显示，o1 模型在准确性和抵抗越狱尝试的抵抗力上都达到了最高分。

安全挑战

尽管 OpenAI 声称取得了进展，但一位名为 "Liberator Pliny" 的黑客展示了即使新的 o1 和 o1-Pro 模型也可以被操纵以绕过安全准则。Pliny 成功地让模型生成成人内容并分享制作莫洛托夫鸡尾酒的说明，尽管系统最初拒绝了这些请求。这凸显了控制这些复杂 AI 系统的难度，因为它们基于概率而非严格的规则操作。

专家观点

OpenAI 的联合创始人 Wojciech Zaremba 在社交媒体上表达了对这种“审慎一致性”工作的自豪，并认为这种推理模型可以以一种新的方式实现一致性。他还指出，确保系统与人类价值观保持一致是一个巨大的挑战，尤其是在开发通用人工智能（AGI）方面。

安全团队

OpenAI 有大约 100 名员工专门负责 AI 的安全性和确保其与人类价值观的一致性。Zaremba 质疑竞争对手的安全实践，特别是马斯克的 xAI 公司将市场增长置于安全措施之上，以及 Anthropic 最近推出的一款没有适当保护措施的人工智能代理可能会对 OpenAI 产生“显著负面反馈”。

总结

o 系列模型可以主动推理安全准则，增强系统安全性。
o1 模型在拒绝有害请求和准确性方面优于其他主流 AI 系统。
尽管有所改进，新模型仍可能被操纵，安全挑战仍然严峻。

Source:https://www.aibase.com/news/14362

近期新闻

AI-NEWS · 2024年 12月 31日

OpenAI推出新安全举措阻止危险请求！

OpenAI 新的安全方法分析

模型训练过程

测试结果

安全挑战

专家观点

安全团队

总结

您可能还喜欢...

AI-NEWS · 2024年 12月 31日

OpenAI 新的安全方法分析

模型训练过程

测试结果

安全挑战

专家观点

安全团队

总结

您可能还喜欢...

Mistral 发布了2个7B小模型： Codestral Mamba 7B 和 Mathstral 7B

v0.dev提示结构详解

Magnific推出超真实图像生成功能助设计与影视专业人士