GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation

📄 arXiv: 2405.13077v2 📥 PDF

作者: Govind Ramesh, Yao Dou, Wei Xu

分类: cs.CR, cs.AI, cs.CL

发布日期: 2024-05-21 (更新: 2024-10-15)

备注: Accepted to EMNLP 2024 Main Conference


💡 一句话要点

IRIS:利用自解释迭代优化,近乎完美地破解GPT-4

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 安全对齐 自解释性 黑盒攻击

📋 核心要点

  1. 现有越狱方法复杂且效率低,难以有效评估和解决LLM的安全问题。
  2. IRIS利用LLM的自解释能力,迭代优化对抗性提示,实现高效的黑盒越狱。
  3. 实验表明,IRIS在多个LLM上取得了极高的越狱成功率,且查询次数显著减少。

📝 摘要(中文)

本文介绍了一种名为迭代细化诱导自越狱(IRIS)的新方法,该方法利用大型语言模型(LLM)的自反思能力进行越狱,且仅需黑盒访问。与以往方法不同,IRIS通过使用单个模型作为攻击者和目标,简化了越狱过程。该方法首先通过自解释迭代地细化对抗性提示,这对于确保即使是良好对齐的LLM也服从对抗性指令至关重要。然后,IRIS根据细化后的提示对输出进行评分和增强,以增加其危害性。实验表明,IRIS在不到7次查询中,在GPT-4上实现了98%的越狱成功率,在GPT-4 Turbo上实现了92%的成功率,在Llama-3.1-70B上实现了94%的成功率。它在自动、黑盒和可解释的越狱方面显著优于以往的方法,同时需要的查询次数也大大减少,从而为可解释的越狱方法建立了一个新的标准。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)的越狱问题,即如何绕过LLM的安全对齐机制,使其生成有害或不当内容。现有方法通常需要大量的查询或复杂的提示工程,效率较低,且难以解释其成功的原因。此外,许多方法需要访问模型的内部参数,不适用于黑盒场景。

核心思路:IRIS的核心思路是利用LLM自身的反思和解释能力,迭代地改进对抗性提示。通过让LLM解释其生成有害内容的原因,并基于这些解释进一步优化提示,可以更有效地诱导LLM生成有害内容。这种方法将LLM同时作为攻击者和防御者,简化了越狱过程。

技术框架:IRIS包含两个主要阶段:提示细化阶段和输出增强阶段。在提示细化阶段,IRIS首先生成一个初始提示,然后让LLM解释该提示可能导致有害输出的原因。基于这些解释,IRIS修改提示,使其更有可能绕过安全机制。这个过程迭代进行,直到提示足够有效。在输出增强阶段,IRIS对LLM生成的输出进行评分,并尝试通过修改提示来提高输出的危害性。

关键创新:IRIS最重要的创新点在于利用了LLM的自解释能力进行越狱。通过让LLM解释其行为,IRIS可以更深入地了解LLM的安全漏洞,并更有效地利用这些漏洞。此外,IRIS是一种黑盒方法,不需要访问模型的内部参数,使其更具通用性。

关键设计:IRIS的关键设计包括:(1) 使用自解释来指导提示的迭代优化;(2) 使用评分函数来评估输出的危害性;(3) 使用简单的提示修改策略,例如添加或删除关键词。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IRIS在GPT-4、GPT-4 Turbo和Llama-3.1-70B上分别实现了98%、92%和94%的越狱成功率,显著优于现有的黑盒越狱方法。更重要的是,IRIS仅需不到7次查询即可达到如此高的成功率,大大提高了越狱效率。这些结果表明,IRIS是一种高效且有效的LLM越狱方法。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性。通过使用IRIS等越狱方法,可以发现LLM的安全漏洞,并开发相应的防御机制。此外,该方法还可以用于研究LLM的内部工作机制,例如理解LLM如何进行推理和决策,从而更好地控制和利用LLM。

📄 摘要(原文)

Research on jailbreaking has been valuable for testing and understanding the safety and security issues of large language models (LLMs). In this paper, we introduce Iterative Refinement Induced Self-Jailbreak (IRIS), a novel approach that leverages the reflective capabilities of LLMs for jailbreaking with only black-box access. Unlike previous methods, IRIS simplifies the jailbreaking process by using a single model as both the attacker and target. This method first iteratively refines adversarial prompts through self-explanation, which is crucial for ensuring that even well-aligned LLMs obey adversarial instructions. IRIS then rates and enhances the output given the refined prompt to increase its harmfulness. We find that IRIS achieves jailbreak success rates of 98% on GPT-4, 92% on GPT-4 Turbo, and 94% on Llama-3.1-70B in under 7 queries. It significantly outperforms prior approaches in automatic, black-box, and interpretable jailbreaking, while requiring substantially fewer queries, thereby establishing a new standard for interpretable jailbreaking methods.