AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs

📄 arXiv: 2409.07503v1 📥 PDF

作者: Lijia Lv, Weigang Zhang, Xuehai Tang, Jie Wen, Feng Liu, Jizhong Han, Songlin Hu

分类: cs.CR, cs.AI, cs.CL

发布日期: 2024-09-11

🔗 代码/项目: GITHUB


💡 一句话要点

提出AdaPPA,一种自适应位置预填充的LLM越狱攻击方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 提示工程 安全漏洞 对抗攻击

📋 核心要点

  1. 现有LLM越狱攻击主要集中在语义层面,易被检测,忽略了模型在不同输出阶段对齐保护能力的差异。
  2. AdaPPA利用LLM的指令遵循能力,先输出安全内容预填充,再利用叙事转换能力生成有害内容。
  3. 在Llama2上的黑盒实验表明,AdaPPA相比现有方法,攻击成功率提升了47%。

📝 摘要(中文)

大型语言模型(LLM)中的越狱漏洞指的是通过精心设计的提示或后缀从模型中提取恶意内容的方法,这引起了研究界的广泛关注。然而,传统的攻击方法主要集中在语义层面,很容易被模型检测到,并且忽略了模型在不同输出阶段的对齐保护能力差异。为了解决这个问题,我们提出了一种自适应位置预填充越狱攻击方法,用于对LLM执行越狱攻击。我们的方法利用模型的指令遵循能力首先输出预填充的安全内容,然后利用其叙事转换能力来生成有害内容。大量的黑盒实验表明,与现有方法相比,我们的方法可以在广泛认可的安全模型(Llama2)上将攻击成功率提高47%。

🔬 方法详解

问题定义:论文旨在解决现有LLM越狱攻击方法容易被检测,且忽略了模型在不同输出阶段对齐保护能力差异的问题。现有方法主要集中在语义层面,模型可以通过语义分析来识别和防御这些攻击,导致攻击成功率较低。

核心思路:论文的核心思路是利用LLM在不同输出阶段的对齐保护能力差异。具体来说,模型在输出初始阶段通常具有更强的安全保护,而在后续阶段则更容易受到叙事转换的影响。因此,先让模型输出一段安全内容作为“预填充”,然后再引导模型生成有害内容。

技术框架:AdaPPA攻击方法主要包含两个阶段:预填充阶段和叙事转换阶段。在预填充阶段,攻击者设计提示,引导LLM生成一段符合安全规范的内容。在叙事转换阶段,攻击者通过修改提示,将LLM的输出引导到有害内容。整个过程是自适应的,可以根据LLM的反馈动态调整提示。

关键创新:AdaPPA的关键创新在于其自适应的位置预填充策略。与传统的直接攻击方法不同,AdaPPA通过先输出安全内容来绕过LLM的初始安全保护,然后再利用叙事转换来生成有害内容。这种方法能够更有效地利用LLM的漏洞,提高攻击成功率。

关键设计:AdaPPA的具体实现细节包括:1) 预填充内容的生成策略,需要保证内容的安全性和相关性;2) 叙事转换的提示设计,需要巧妙地引导LLM生成有害内容,同时避免触发安全机制;3) 自适应调整策略,根据LLM的反馈动态调整提示,以提高攻击成功率。具体的参数设置和损失函数未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AdaPPA在Llama2模型上实现了显著的攻击成功率提升,相较于现有方法提高了47%。这一结果表明AdaPPA能够更有效地绕过LLM的安全保护机制,揭示了现有LLM在对抗越狱攻击方面的脆弱性。具体的实验设置和更多模型上的表现未知。

🎯 应用场景

该研究成果可应用于评估和提升LLM的安全性,帮助开发者发现和修复模型中的越狱漏洞。同时,该方法也可以用于构建更强大的防御机制,以保护LLM免受恶意攻击。此外,该研究对于理解LLM的内部工作机制和安全边界具有重要意义。

📄 摘要(原文)

Jailbreak vulnerabilities in Large Language Models (LLMs) refer to methods that extract malicious content from the model by carefully crafting prompts or suffixes, which has garnered significant attention from the research community. However, traditional attack methods, which primarily focus on the semantic level, are easily detected by the model. These methods overlook the difference in the model's alignment protection capabilities at different output stages. To address this issue, we propose an adaptive position pre-fill jailbreak attack approach for executing jailbreak attacks on LLMs. Our method leverages the model's instruction-following capabilities to first output pre-filled safe content, then exploits its narrative-shifting abilities to generate harmful content. Extensive black-box experiments demonstrate our method can improve the attack success rate by 47% on the widely recognized secure model (Llama2) compared to existing approaches. Our code can be found at: https://github.com/Yummy416/AdaPPA.