GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation

作者: Govind Ramesh, Yao Dou, Wei Xu

分类: cs.CR, cs.AI, cs.CL

发布日期: 2024-05-21 (更新: 2024-10-15)

备注: Accepted to EMNLP 2024 Main Conference

💡 一句话要点

IRIS：利用自解释迭代优化，近乎完美地破解GPT-4

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 安全对齐 自解释性 黑盒攻击

📋 核心要点

现有越狱方法复杂且效率低，难以有效评估和解决LLM的安全问题。
IRIS利用LLM的自解释能力，迭代优化对抗性提示，实现高效的黑盒越狱。
实验表明，IRIS在多个LLM上取得了极高的越狱成功率，且查询次数显著减少。

📝 摘要（中文）

本文介绍了一种名为迭代细化诱导自越狱（IRIS）的新方法，该方法利用大型语言模型（LLM）的自反思能力进行越狱，且仅需黑盒访问。与以往方法不同，IRIS通过使用单个模型作为攻击者和目标，简化了越狱过程。该方法首先通过自解释迭代地细化对抗性提示，这对于确保即使是良好对齐的LLM也服从对抗性指令至关重要。然后，IRIS根据细化后的提示对输出进行评分和增强，以增加其危害性。实验表明，IRIS在不到7次查询中，在GPT-4上实现了98%的越狱成功率，在GPT-4 Turbo上实现了92%的成功率，在Llama-3.1-70B上实现了94%的成功率。它在自动、黑盒和可解释的越狱方面显著优于以往的方法，同时需要的查询次数也大大减少，从而为可解释的越狱方法建立了一个新的标准。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）的越狱问题，即如何绕过LLM的安全对齐机制，使其生成有害或不当内容。现有方法通常需要大量的查询或复杂的提示工程，效率较低，且难以解释其成功的原因。此外，许多方法需要访问模型的内部参数，不适用于黑盒场景。

核心思路：IRIS的核心思路是利用LLM自身的反思和解释能力，迭代地改进对抗性提示。通过让LLM解释其生成有害内容的原因，并基于这些解释进一步优化提示，可以更有效地诱导LLM生成有害内容。这种方法将LLM同时作为攻击者和防御者，简化了越狱过程。

技术框架：IRIS包含两个主要阶段：提示细化阶段和输出增强阶段。在提示细化阶段，IRIS首先生成一个初始提示，然后让LLM解释该提示可能导致有害输出的原因。基于这些解释，IRIS修改提示，使其更有可能绕过安全机制。这个过程迭代进行，直到提示足够有效。在输出增强阶段，IRIS对LLM生成的输出进行评分，并尝试通过修改提示来提高输出的危害性。

关键创新：IRIS最重要的创新点在于利用了LLM的自解释能力进行越狱。通过让LLM解释其行为，IRIS可以更深入地了解LLM的安全漏洞，并更有效地利用这些漏洞。此外，IRIS是一种黑盒方法，不需要访问模型的内部参数，使其更具通用性。

关键设计：IRIS的关键设计包括：(1) 使用自解释来指导提示的迭代优化；(2) 使用评分函数来评估输出的危害性；(3) 使用简单的提示修改策略，例如添加或删除关键词。

🖼️ 关键图片

📊 实验亮点

IRIS在GPT-4、GPT-4 Turbo和Llama-3.1-70B上分别实现了98%、92%和94%的越狱成功率，显著优于现有的黑盒越狱方法。更重要的是，IRIS仅需不到7次查询即可达到如此高的成功率，大大提高了越狱效率。这些结果表明，IRIS是一种高效且有效的LLM越狱方法。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性。通过使用IRIS等越狱方法，可以发现LLM的安全漏洞，并开发相应的防御机制。此外，该方法还可以用于研究LLM的内部工作机制，例如理解LLM如何进行推理和决策，从而更好地控制和利用LLM。

📄 摘要（原文）

Research on jailbreaking has been valuable for testing and understanding the safety and security issues of large language models (LLMs). In this paper, we introduce Iterative Refinement Induced Self-Jailbreak (IRIS), a novel approach that leverages the reflective capabilities of LLMs for jailbreaking with only black-box access. Unlike previous methods, IRIS simplifies the jailbreaking process by using a single model as both the attacker and target. This method first iteratively refines adversarial prompts through self-explanation, which is crucial for ensuring that even well-aligned LLMs obey adversarial instructions. IRIS then rates and enhances the output given the refined prompt to increase its harmfulness. We find that IRIS achieves jailbreak success rates of 98% on GPT-4, 92% on GPT-4 Turbo, and 94% on Llama-3.1-70B in under 7 queries. It significantly outperforms prior approaches in automatic, black-box, and interpretable jailbreaking, while requiring substantially fewer queries, thereby establishing a new standard for interpretable jailbreaking methods.

GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理