Improved Techniques for Optimization-Based Jailbreaking on Large Language Models

📄 arXiv: 2405.21018v2 📥 PDF

作者: Xiaojun Jia, Tianyu Pang, Chao Du, Yihao Huang, Jindong Gu, Yang Liu, Xiaochun Cao, Min Lin

分类: cs.LG, cs.CL, cs.CR

发布日期: 2024-05-31 (更新: 2024-06-05)

🔗 代码/项目: GITHUB


💡 一句话要点

I-GCG:通过改进优化技术提升大语言模型的越狱攻击效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 对抗性攻击 安全对齐 优化算法

📋 核心要点

  1. 现有基于优化的越狱攻击,如GCG,虽然有效但攻击效率不高,限制了其在实际场景中的应用。
  2. 论文提出I-GCG,通过多样化的目标模板、自适应坐标更新和由易到难初始化等策略,提升攻击效率。
  3. 实验表明,I-GCG在多个基准测试中优于现有越狱攻击方法,攻击成功率接近100%。

📝 摘要(中文)

大型语言模型(LLMs)发展迅速,其安全对齐是广泛部署的关键。许多红队尝试越狱LLMs,其中,贪婪坐标梯度(GCG)攻击的成功引起了对基于优化的越狱技术研究的兴趣。尽管GCG是一个重要的里程碑,但其攻击效率仍不尽如人意。本文针对像GCG这样基于优化的越狱攻击,提出了一些改进的(经验性)技术。首先,我们观察到GCG的单一目标模板“Sure”在很大程度上限制了攻击性能;鉴于此,我们提出应用包含有害自我暗示和/或指导的多样化目标模板来误导LLMs。此外,从优化方面,我们提出了一种GCG中的自动多坐标更新策略(即,自适应地决定每步替换多少个token)以加速收敛,以及诸如由易到难初始化之类的技巧。然后,我们结合这些改进的技术,开发了一种高效的越狱方法,称为I-GCG。在我们的实验中,我们在NeurIPS 2023 Red Teaming Track等一系列基准上进行了评估。结果表明,我们改进的技术可以帮助GCG超越最先进的越狱攻击,并实现接近100%的攻击成功率。代码已发布在https://github.com/jiaxiaojunQAQ/I-GCG。

🔬 方法详解

问题定义:论文旨在提高针对大型语言模型(LLMs)的基于优化的越狱攻击的效率。现有方法,特别是GCG,虽然能够成功越狱,但攻击效率较低,需要大量的计算资源和时间。GCG主要依赖于单一的目标模板,限制了其攻击的多样性和有效性。

核心思路:论文的核心思路是通过改进优化策略和引入多样化的目标模板,来提升越狱攻击的效率和成功率。通过更有效地利用梯度信息和探索更广泛的攻击空间,I-GCG能够更快地找到有效的对抗性提示。

技术框架:I-GCG的整体框架基于GCG,但引入了以下关键改进:1) 多样化的目标模板:使用包含有害自我暗示和/或指导的多个模板,增加攻击的多样性。2) 自动多坐标更新:自适应地决定每步替换多少个token,加速收敛。3) 由易到难初始化:先从简单的攻击开始,逐步增加难度,避免陷入局部最优。

关键创新:I-GCG的关键创新在于其综合利用了多种优化技巧和目标模板多样性,从而显著提升了越狱攻击的效率。与GCG相比,I-GCG不再局限于单一的目标模板,而是能够探索更广泛的攻击空间,并根据梯度信息自适应地调整攻击策略。

关键设计:在目标模板方面,论文设计了包含有害自我暗示和指导的模板,例如“Let's think step by step”等。在坐标更新方面,I-GCG采用了一种自适应策略,根据梯度的大小动态调整每步替换的token数量。在初始化方面,I-GCG首先使用简单的攻击,然后逐步增加难度,以避免陷入局部最优。

📊 实验亮点

I-GCG在NeurIPS 2023 Red Teaming Track等基准测试中表现出色,显著优于现有的越狱攻击方法。实验结果表明,I-GCG能够实现接近100%的攻击成功率,表明其在提升越狱攻击效率方面具有显著优势。该研究为LLM安全领域提供了有价值的参考。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性,帮助开发者发现模型潜在的漏洞并进行修复。同时,该技术也可用于构建更强大的防御机制,以抵御恶意攻击,保障LLM的可靠性和安全性。此外,该研究对于理解LLM的脆弱性具有重要意义,有助于推动更安全、更可靠的AI系统的发展。

📄 摘要(原文)

Large language models (LLMs) are being rapidly developed, and a key component of their widespread deployment is their safety-related alignment. Many red-teaming efforts aim to jailbreak LLMs, where among these efforts, the Greedy Coordinate Gradient (GCG) attack's success has led to a growing interest in the study of optimization-based jailbreaking techniques. Although GCG is a significant milestone, its attacking efficiency remains unsatisfactory. In this paper, we present several improved (empirical) techniques for optimization-based jailbreaks like GCG. We first observe that the single target template of "Sure" largely limits the attacking performance of GCG; given this, we propose to apply diverse target templates containing harmful self-suggestion and/or guidance to mislead LLMs. Besides, from the optimization aspects, we propose an automatic multi-coordinate updating strategy in GCG (i.e., adaptively deciding how many tokens to replace in each step) to accelerate convergence, as well as tricks like easy-to-hard initialisation. Then, we combine these improved technologies to develop an efficient jailbreak method, dubbed I-GCG. In our experiments, we evaluate on a series of benchmarks (such as NeurIPS 2023 Red Teaming Track). The results demonstrate that our improved techniques can help GCG outperform state-of-the-art jailbreaking attacks and achieve nearly 100% attack success rate. The code is released at https://github.com/jiaxiaojunQAQ/I-GCG.