AI-NEWS · 2024年 7月 30日

提示词注入 VS 越狱:有什么区别? [译]

提示词注入 vs 越狱:有什么区别?

主要观点

  1. 定义区别

    • 提示词注入:通过不可信的特殊输入覆盖开发者的原始指令,导致生成式 AI 模型无法区分开发者指令和用户输入。
    • 越狱:通过特定提示词诱导生成式 AI 模型做出未预期的行为或言论,不涉及覆盖原始指令。
  2. 架构问题

    • 提示词注入和越狱都是由于模型架构上的问题导致,但具体表现不同。提示词注入是因为模型无法区分开发者和用户的指令,而越狱则是由于模型无法防止对抗性提示词。
  3. 应用场景

    • 尽管两者都有负面含义,但在某些研究和测试中,它们也可以被用于积极的目的,如评估模型性能等。

背景讨论

  • 社区观点:通过对话,作者改变了对提示词注入和越狱的看法,明确了两者的区别。
  • 历史发展
    • Riley Goodside 和 Simon Willison 等人对提示词注入进行了早期探索和命名。
    • Kai Greshake 发现了间接提示词注入。

实际案例

  • 推荐书籍网站示例:展示了如何通过恶意输入使模型忽略原始指令并执行不恰当的操作。
  • ChatGPT 示例:直接给模型恶意指令,不涉及覆盖任何原始指令。

结论

  • 提示词注入和越狱虽然都涉及到利用生成式 AI 模型的弱点,但其本质和实现方式不同。
  • 理解这两者的区别对于改进 AI 模型的安全性和可靠性具有重要意义。

进一步学习

  • 推荐阅读有关提示词攻击的课程和论文,以深入了解提示词注入和越狱的技术细节及防御措施。

Source:https://baoyu.io/translations/prompt-engineering/prompt-injection-vs-jailbreaking-difference