AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation
作者: Zijun Wang, Haoqin Tu, Jieru Mei, Bingchen Zhao, Yisen Wang, Cihang Xie
分类: cs.CL
发布日期: 2024-10-11
🔗 代码/项目: GITHUB
💡 一句话要点
AttnGCG:通过注意力操纵增强大语言模型的越狱攻击
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 越狱攻击 注意力机制 安全漏洞 对抗攻击
📋 核心要点
- 现有基于优化的越狱攻击方法,如GCG,缺乏对模型内部行为的有效利用,导致攻击效果受限。
- AttnGCG通过操纵模型的注意力得分,使其减少对安全提示的关注,从而提高越狱攻击的成功率。
- 实验表明,AttnGCG在多个LLM上显著提升了越狱攻击效果,并展现出良好的迁移能力和可解释性。
📝 摘要(中文)
本文研究了基于Transformer的大语言模型(LLMs)在越狱攻击中的脆弱性,特别关注基于优化的贪婪坐标梯度(GCG)策略。我们首先观察到攻击的有效性与模型的内部行为之间存在正相关关系。例如,当模型更多地关注旨在确保LLM安全对齐的系统提示时,攻击往往不太有效。基于这一发现,我们引入了一种增强方法,通过操纵模型的注意力得分来促进LLM越狱,我们称之为AttnGCG。实验结果表明,AttnGCG在不同的LLM上表现出一致的攻击效果提升,在Llama-2系列中平均提升约7%,在Gemma系列中平均提升约10%。我们的策略还展示了针对未见过的有害目标和黑盒LLM(如GPT-3.5和GPT-4)的强大攻击可迁移性。此外,我们注意到我们的注意力得分可视化更具可解释性,使我们能够更好地了解我们有针对性的注意力操纵如何促进更有效的越狱。
🔬 方法详解
问题定义:论文旨在提升针对大型语言模型(LLMs)的越狱攻击效果,特别是基于优化的GCG方法。现有GCG方法主要通过优化输入文本来实现攻击,但缺乏对模型内部行为的有效利用,例如模型对安全提示的关注程度。这种忽略导致攻击效率不高,难以绕过LLM的安全机制。
核心思路:AttnGCG的核心思路是,通过操纵LLM的注意力得分,使其减少对安全提示的关注,从而削弱LLM的安全防御能力,更容易实现越狱。论文观察到,模型对安全提示的关注程度与攻击成功率负相关,因此通过调整注意力分布,可以引导模型产生有害回复。
技术框架:AttnGCG在GCG的基础上,增加了一个注意力操纵模块。整体流程如下:1) 使用GCG生成初始攻击提示;2) 计算模型在处理攻击提示时的注意力得分;3) 根据目标(减少对安全提示的关注)调整注意力得分;4) 基于调整后的注意力得分,反向传播梯度,优化攻击提示;5) 重复步骤2-4,直到达到攻击目标或达到最大迭代次数。
关键创新:AttnGCG的关键创新在于将注意力操纵引入到越狱攻击中。与传统的GCG方法仅优化输入文本不同,AttnGCG同时优化输入文本和模型的注意力分布,从而更直接地影响模型的内部行为,提高攻击的有效性。这种方法提供了一种新的视角,即通过理解和操纵模型的内部机制来实现更强大的攻击。
关键设计:AttnGCG的关键设计包括:1) 如何定义和计算注意力得分,论文使用了Transformer模型的标准注意力机制;2) 如何量化安全提示的影响,论文可能需要定义或选择特定的token来代表安全提示;3) 如何调整注意力得分,例如,可以通过添加一个损失函数来惩罚模型对安全提示的关注;4) 如何将注意力得分的梯度反向传播到输入文本,这需要仔细设计梯度计算过程。
🖼️ 关键图片
📊 实验亮点
AttnGCG在Llama-2系列模型上实现了平均7%的攻击效果提升,在Gemma系列模型上实现了平均10%的提升。此外,AttnGCG还展现出强大的攻击迁移能力,能够有效攻击未见过的有害目标和黑盒LLM,如GPT-3.5和GPT-4。注意力得分可视化结果表明,AttnGCG能够有效地引导模型减少对安全提示的关注,从而提高攻击成功率。
🎯 应用场景
AttnGCG的研究成果可应用于评估和提升大型语言模型的安全性。通过模拟更强大的攻击,可以发现LLM潜在的安全漏洞,并开发更有效的防御机制。此外,该研究也为理解LLM的内部工作机制提供了新的视角,有助于开发更安全、更可靠的人工智能系统。该技术也可能被恶意利用,因此需要谨慎对待。
📄 摘要(原文)
This paper studies the vulnerabilities of transformer-based Large Language Models (LLMs) to jailbreaking attacks, focusing specifically on the optimization-based Greedy Coordinate Gradient (GCG) strategy. We first observe a positive correlation between the effectiveness of attacks and the internal behaviors of the models. For instance, attacks tend to be less effective when models pay more attention to system prompts designed to ensure LLM safety alignment. Building on this discovery, we introduce an enhanced method that manipulates models' attention scores to facilitate LLM jailbreaking, which we term AttnGCG. Empirically, AttnGCG shows consistent improvements in attack efficacy across diverse LLMs, achieving an average increase of ~7% in the Llama-2 series and ~10% in the Gemma series. Our strategy also demonstrates robust attack transferability against both unseen harmful goals and black-box LLMs like GPT-3.5 and GPT-4. Moreover, we note our attention-score visualization is more interpretable, allowing us to gain better insights into how our targeted attention manipulation facilitates more effective jailbreaking. We release the code at https://github.com/UCSC-VLAA/AttnGCG-attack.