Boosting Jailbreak Attack with Momentum
作者: Yihao Zhang, Zeming Wei
分类: cs.LG, cs.AI, cs.CL, cs.CR, math.OC
发布日期: 2024-05-02 (更新: 2025-03-02)
备注: Accepted by ICASSP 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出动量加速GCG攻击(MAC),提升LLM越狱攻击的成功率和效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 越狱攻击 对抗性攻击 动量优化 梯度攻击
📋 核心要点
- 现有GCG攻击LLM越狱漏洞效率低,成为攻击瓶颈,限制了对抗性提示的生成速度。
- 提出MAC攻击,将动量项融入梯度启发式,加速并稳定对抗性提示中token的随机搜索。
- 实验表明,MAC在攻击成功率和优化效率上显著优于基线,且在迁移攻击和防御模型下仍具优势。
📝 摘要(中文)
大型语言模型(LLM)在各种任务中取得了显著成功,但它们仍然容易受到对抗性攻击,特别是众所周知的越狱攻击。贪婪坐标梯度(GCG)攻击通过结合梯度启发式和贪婪搜索来优化对抗性提示,从而有效地利用了这种漏洞。然而,这种攻击的效率已成为攻击过程中的瓶颈。为了缓解这一限制,本文从优化的角度重新思考了对抗性提示的生成,旨在稳定优化过程并利用先前优化迭代中的更多启发式见解。具体来说,我们提出了动量加速GCG(MAC)攻击,它将动量项集成到梯度启发式中,以促进和稳定对抗性提示中token的随机搜索。实验结果表明,在攻击成功率和优化效率方面,MAC相对于基线取得了显著的提升。此外,我们证明了MAC对于迁移攻击和防御机制下的模型仍然表现出优越的性能。我们的代码可在https://github.com/weizeming/momentum-attack-llm获取。
🔬 方法详解
问题定义:论文旨在解决现有GCG(Greedy Coordinate Gradient)攻击在LLM越狱攻击中效率低下的问题。GCG攻击通过梯度启发式和贪婪搜索来优化对抗性提示,但其效率已成为攻击过程的瓶颈,限制了对抗性提示的生成速度和攻击成功率。
核心思路:论文的核心思路是将动量(Momentum)的概念引入到GCG攻击中,提出动量加速GCG(MAC)攻击。通过在梯度更新中加入动量项,可以积累之前的梯度信息,从而更稳定、更快速地找到对抗性提示中的有效token,提高攻击的成功率和效率。
技术框架:MAC攻击的技术框架与GCG类似,仍然基于梯度启发式和贪婪搜索。主要流程包括:1) 初始化对抗性提示;2) 计算目标LLM的梯度;3) 使用梯度启发式选择候选token;4) 使用贪婪搜索选择最佳token;5) 更新对抗性提示。关键区别在于,MAC在梯度更新时加入了动量项,使得更新方向不仅考虑当前梯度,还考虑之前的梯度累积。
关键创新:MAC攻击的最重要的技术创新点是将动量引入到对抗性提示的生成过程中。传统的GCG攻击只关注当前梯度,容易陷入局部最优。而MAC通过动量积累历史梯度信息,可以更有效地跳出局部最优,找到更有效的对抗性提示。
关键设计:MAC攻击的关键设计在于动量项的引入和动量系数的设置。动量项的计算公式为:v_t = mu * v_{t-1} + grad_t,其中v_t是当前时刻的动量,mu是动量系数,v_{t-1}是上一时刻的动量,grad_t是当前时刻的梯度。动量系数mu是一个重要的超参数,需要根据具体任务进行调整。论文中可能给出了mu的推荐值或实验结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MAC攻击在攻击成功率和优化效率方面均优于基线GCG攻击。具体而言,MAC攻击在相同时间内能够达到更高的攻击成功率,或者在达到相同攻击成功率时所需的时间更短。此外,MAC攻击在迁移攻击和防御模型下仍然表现出优越的性能,表明其具有较强的泛化能力。
🎯 应用场景
该研究成果可应用于提升LLM的安全性评估,通过更高效的越狱攻击方法,可以更全面地发现LLM的潜在漏洞,从而促进LLM防御机制的开发和完善。此外,该方法也可用于评估不同防御策略的有效性,推动LLM安全性的整体提升。
📄 摘要(原文)
Large Language Models (LLMs) have achieved remarkable success across diverse tasks, yet they remain vulnerable to adversarial attacks, notably the well-known jailbreak attack. In particular, the Greedy Coordinate Gradient (GCG) attack has demonstrated efficacy in exploiting this vulnerability by optimizing adversarial prompts through a combination of gradient heuristics and greedy search. However, the efficiency of this attack has become a bottleneck in the attacking process. To mitigate this limitation, in this paper we rethink the generation of the adversarial prompts through an optimization lens, aiming to stabilize the optimization process and harness more heuristic insights from previous optimization iterations. Specifically, we propose the \textbf{M}omentum \textbf{A}ccelerated G\textbf{C}G (\textbf{MAC}) attack, which integrates a momentum term into the gradient heuristic to boost and stabilize the random search for tokens in adversarial prompts. Experimental results showcase the notable enhancement achieved by MAC over baselines in terms of attack success rate and optimization efficiency. Moreover, we demonstrate that MAC can still exhibit superior performance for transfer attacks and models under defense mechanisms. Our code is available at https://github.com/weizeming/momentum-attack-llm.