Improved Techniques for Optimization-Based Jailbreaking on Large Language Models

作者: Xiaojun Jia, Tianyu Pang, Chao Du, Yihao Huang, Jindong Gu, Yang Liu, Xiaochun Cao, Min Lin

分类: cs.LG, cs.CL, cs.CR

发布日期: 2024-05-31 (更新: 2024-06-05)

🔗 代码/项目: GITHUB

💡 一句话要点

I-GCG：通过改进优化技术提升大语言模型的越狱攻击效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 对抗性攻击 安全对齐 优化算法

📋 核心要点

现有基于优化的越狱攻击，如GCG，虽然有效但攻击效率不高，限制了其在实际场景中的应用。
论文提出I-GCG，通过多样化的目标模板、自适应坐标更新和由易到难初始化等策略，提升攻击效率。
实验表明，I-GCG在多个基准测试中优于现有越狱攻击方法，攻击成功率接近100%。

📝 摘要（中文）

大型语言模型（LLMs）发展迅速，其安全对齐是广泛部署的关键。许多红队尝试越狱LLMs，其中，贪婪坐标梯度（GCG）攻击的成功引起了对基于优化的越狱技术研究的兴趣。尽管GCG是一个重要的里程碑，但其攻击效率仍不尽如人意。本文针对像GCG这样基于优化的越狱攻击，提出了一些改进的（经验性）技术。首先，我们观察到GCG的单一目标模板“Sure”在很大程度上限制了攻击性能；鉴于此，我们提出应用包含有害自我暗示和/或指导的多样化目标模板来误导LLMs。此外，从优化方面，我们提出了一种GCG中的自动多坐标更新策略（即，自适应地决定每步替换多少个token）以加速收敛，以及诸如由易到难初始化之类的技巧。然后，我们结合这些改进的技术，开发了一种高效的越狱方法，称为I-GCG。在我们的实验中，我们在NeurIPS 2023 Red Teaming Track等一系列基准上进行了评估。结果表明，我们改进的技术可以帮助GCG超越最先进的越狱攻击，并实现接近100%的攻击成功率。代码已发布在https://github.com/jiaxiaojunQAQ/I-GCG。

🔬 方法详解

问题定义：论文旨在提高针对大型语言模型（LLMs）的基于优化的越狱攻击的效率。现有方法，特别是GCG，虽然能够成功越狱，但攻击效率较低，需要大量的计算资源和时间。GCG主要依赖于单一的目标模板，限制了其攻击的多样性和有效性。

核心思路：论文的核心思路是通过改进优化策略和引入多样化的目标模板，来提升越狱攻击的效率和成功率。通过更有效地利用梯度信息和探索更广泛的攻击空间，I-GCG能够更快地找到有效的对抗性提示。

技术框架：I-GCG的整体框架基于GCG，但引入了以下关键改进：1) 多样化的目标模板：使用包含有害自我暗示和/或指导的多个模板，增加攻击的多样性。2) 自动多坐标更新：自适应地决定每步替换多少个token，加速收敛。3) 由易到难初始化：先从简单的攻击开始，逐步增加难度，避免陷入局部最优。

关键创新：I-GCG的关键创新在于其综合利用了多种优化技巧和目标模板多样性，从而显著提升了越狱攻击的效率。与GCG相比，I-GCG不再局限于单一的目标模板，而是能够探索更广泛的攻击空间，并根据梯度信息自适应地调整攻击策略。

关键设计：在目标模板方面，论文设计了包含有害自我暗示和指导的模板，例如“Let's think step by step”等。在坐标更新方面，I-GCG采用了一种自适应策略，根据梯度的大小动态调整每步替换的token数量。在初始化方面，I-GCG首先使用简单的攻击，然后逐步增加难度，以避免陷入局部最优。

📊 实验亮点

I-GCG在NeurIPS 2023 Red Teaming Track等基准测试中表现出色，显著优于现有的越狱攻击方法。实验结果表明，I-GCG能够实现接近100%的攻击成功率，表明其在提升越狱攻击效率方面具有显著优势。该研究为LLM安全领域提供了有价值的参考。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性，帮助开发者发现模型潜在的漏洞并进行修复。同时，该技术也可用于构建更强大的防御机制，以抵御恶意攻击，保障LLM的可靠性和安全性。此外，该研究对于理解LLM的脆弱性具有重要意义，有助于推动更安全、更可靠的AI系统的发展。

📄 摘要（原文）

Large language models (LLMs) are being rapidly developed, and a key component of their widespread deployment is their safety-related alignment. Many red-teaming efforts aim to jailbreak LLMs, where among these efforts, the Greedy Coordinate Gradient (GCG) attack's success has led to a growing interest in the study of optimization-based jailbreaking techniques. Although GCG is a significant milestone, its attacking efficiency remains unsatisfactory. In this paper, we present several improved (empirical) techniques for optimization-based jailbreaks like GCG. We first observe that the single target template of "Sure" largely limits the attacking performance of GCG; given this, we propose to apply diverse target templates containing harmful self-suggestion and/or guidance to mislead LLMs. Besides, from the optimization aspects, we propose an automatic multi-coordinate updating strategy in GCG (i.e., adaptively deciding how many tokens to replace in each step) to accelerate convergence, as well as tricks like easy-to-hard initialisation. Then, we combine these improved technologies to develop an efficient jailbreak method, dubbed I-GCG. In our experiments, we evaluate on a series of benchmarks (such as NeurIPS 2023 Red Teaming Track). The results demonstrate that our improved techniques can help GCG outperform state-of-the-art jailbreaking attacks and achieve nearly 100% attack success rate. The code is released at https://github.com/jiaxiaojunQAQ/I-GCG.

Improved Techniques for Optimization-Based Jailbreaking on Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理