Foot-In-The-Door: A Multi-turn Jailbreak for LLMs
作者: Zixuan Weng, Xiaolong Jin, Jinyuan Jia, Xiangyu Zhang
分类: cs.CL, cs.AI
发布日期: 2025-02-27 (更新: 2025-03-28)
备注: 19 pages, 8 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出FITD多轮jailbreak方法,利用心理学原理提升LLM攻击成功率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 Jailbreak 对抗攻击 登门槛效应 多轮对话 AI安全 提示工程
📋 核心要点
- 现有jailbreak方法难以有效绕过LLM的安全防护机制,尤其是在多轮对话中。
- FITD方法借鉴“登门槛效应”,通过逐步升级恶意意图诱导LLM产生有害输出。
- 实验表明,FITD在多个LLM上实现了高达94%的攻击成功率,显著优于现有方法。
📝 摘要(中文)
随着大型语言模型日益融入实际应用,确保AI安全性至关重要。一个关键挑战是jailbreak,即对抗性提示绕过内置安全措施,诱导模型产生有害的、不允许的输出。受心理学“登门槛效应”的启发,我们引入FITD,一种新颖的多轮jailbreak方法,它利用了最初的小承诺会降低对更重大或更不道德的违规行为的抵制这一现象。我们的方法通过中间桥梁提示逐步升级用户查询的恶意意图,并通过模型自身的响应来调整,从而诱导产生有害响应。在两个jailbreak基准上的大量实验结果表明,FITD在七个广泛使用的模型上实现了平均94%的攻击成功率,优于现有的最先进方法。此外,我们还对LLM的自我腐败进行了深入分析,突出了当前对齐策略中的漏洞,并强调了多轮交互中固有的风险。代码已在https://github.com/Jinxiaolong1129/Foot-in-the-door-Jailbreak上发布。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)的jailbreak问题,即如何绕过LLM的安全机制,使其生成有害或不当内容。现有方法通常难以在多轮对话中持续有效地进行jailbreak,因为LLM会逐渐识别并抵御攻击。
核心思路:论文的核心思路是借鉴心理学中的“登门槛效应”,即先提出一个小要求,一旦对方接受,再提出一个更大的要求,更容易被接受。在LLM jailbreak中,这意味着先通过一些无害的提示引导LLM做出初步回应,然后逐步升级提示的恶意程度,最终诱导LLM生成有害内容。
技术框架:FITD方法是一个多轮对话攻击框架,主要包含以下阶段:1) 初始提示:向LLM提出一个看似无害的初始问题,例如询问一个常识性问题。2) 桥梁提示:设计一系列桥梁提示,逐步将初始问题引导到恶意目标。这些提示旨在利用LLM的上下文理解能力,使其在不知不觉中接受越来越有害的假设或前提。3) 目标提示:最终提出包含恶意意图的目标提示,由于之前的桥梁提示已经降低了LLM的防御,因此更容易成功诱导其生成有害内容。
关键创新:FITD的关键创新在于将心理学原理应用于LLM jailbreak,通过多轮对话逐步降低LLM的防御,从而提高攻击成功率。与传统的单轮jailbreak方法相比,FITD能够更好地利用LLM的上下文理解能力,实现更隐蔽、更有效的攻击。
关键设计:桥梁提示的设计是FITD的关键。设计原则包括:1) 语义连贯性:桥梁提示应与前后对话保持语义连贯,避免引起LLM的怀疑。2) 逐步升级:桥梁提示的恶意程度应逐步升级,避免一次性提出过于敏感的问题。3) 利用LLM的知识:桥梁提示可以利用LLM已有的知识,引导其做出符合攻击者意图的推断。论文中没有明确提及损失函数或网络结构等细节,因为FITD主要是一种提示工程方法,而非模型训练方法。
🖼️ 关键图片
📊 实验亮点
FITD在两个jailbreak基准测试中,针对七个广泛使用的LLM模型,实现了平均94%的攻击成功率,显著优于现有的state-of-the-art方法。这表明FITD是一种非常有效的LLM jailbreak方法,能够成功绕过多种LLM的安全防护机制。
🎯 应用场景
该研究成果可用于评估和改进LLM的安全性,帮助开发者发现和修复LLM中的潜在漏洞。此外,该研究也提醒人们关注多轮对话中LLM的潜在风险,以及如何设计更安全、更可靠的对话系统。研究结果对于提升AI安全性和可靠性具有重要意义。
📄 摘要(原文)
Ensuring AI safety is crucial as large language models become increasingly integrated into real-world applications. A key challenge is jailbreak, where adversarial prompts bypass built-in safeguards to elicit harmful disallowed outputs. Inspired by psychological foot-in-the-door principles, we introduce FITD,a novel multi-turn jailbreak method that leverages the phenomenon where minor initial commitments lower resistance to more significant or more unethical transgressions. Our approach progressively escalates the malicious intent of user queries through intermediate bridge prompts and aligns the model's response by itself to induce toxic responses. Extensive experimental results on two jailbreak benchmarks demonstrate that FITD achieves an average attack success rate of 94% across seven widely used models, outperforming existing state-of-the-art methods. Additionally, we provide an in-depth analysis of LLM self-corruption, highlighting vulnerabilities in current alignment strategies and emphasizing the risks inherent in multi-turn interactions. The code is available at https://github.com/Jinxiaolong1129/Foot-in-the-door-Jailbreak.