Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models

📄 arXiv: 2408.14866v2 📥 PDF

作者: Hongfu Liu, Yuxi Xie, Ye Wang, Michael Shieh

分类: cs.CL, cs.CR, cs.LG

发布日期: 2024-08-27 (更新: 2024-10-05)

备注: Accepted to the EMNLP 2024


💡 一句话要点

提出DeGCG框架,加速对齐大语言模型的对抗性后缀生成与迁移,提升安全性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对抗性攻击 大语言模型 安全性 迁移学习 梯度优化 红队测试 对抗样本

📋 核心要点

  1. 现有基于GCG的对抗性后缀生成方法计算效率低,限制了其在不同模型和数据上的可迁移性研究。
  2. DeGCG框架将搜索过程解耦为预搜索和后搜索两个阶段,通过预搜索阶段的token优化加速整体搜索。
  3. 实验表明,DeGCG及其变体i-DeGCG在多个模型和数据集上均表现出更高的效率,并在Llama2-chat-7b上取得了显著的性能提升。

📝 摘要(中文)

大型语言模型(LLMs)由于可能被恶意用户滥用而面临安全问题。最近的红队测试工作已经确定了能够利用基于梯度的搜索算法贪婪坐标梯度(GCG)来破解LLM的对抗性后缀。然而,GCG存在计算效率低下的问题,限制了对跨模型和数据后缀可迁移性和可扩展性的进一步研究。在这项工作中,我们连接了搜索效率和后缀可迁移性。我们提出了一个两阶段迁移学习框架DeGCG,它将搜索过程解耦为行为无关的预搜索和行为相关的后搜索。具体来说,我们在预搜索中采用直接的第一个目标token优化来促进搜索过程。我们将我们的方法应用于跨模型、跨数据和自迁移场景。此外,我们引入了我们方法的交错变体i-DeGCG,它迭代地利用自迁移性来加速搜索过程。在HarmBench上的实验证明了我们的方法在各种模型和领域中的效率。值得注意的是,我们的i-DeGCG在Llama2-chat-7b上优于基线,在有效集和测试集上的ASR分别为43.9(+22.2)和39.0(+19.5)。对跨模型迁移的进一步分析表明,第一个目标token优化在利用后缀可迁移性以实现高效搜索方面起着关键作用。

🔬 方法详解

问题定义:论文旨在解决现有对抗性后缀生成方法,特别是基于GCG的方法,在计算效率上的不足。现有方法在面对大型语言模型时,搜索速度慢,难以探索不同模型和数据之间的迁移性。因此,如何提升对抗性后缀的生成效率,并有效利用迁移学习,是本文要解决的核心问题。

核心思路:论文的核心思路是将对抗性后缀的搜索过程分解为两个阶段:行为无关的预搜索和行为相关的后搜索。预搜索阶段专注于优化第一个目标token,旨在快速找到有潜力的后缀,而无需过多考虑特定模型的行为。后搜索阶段则针对特定模型进行微调,以提高攻击成功率。这种解耦的设计旨在利用不同模型之间的共性,加速搜索过程。

技术框架:DeGCG框架包含两个主要阶段:预搜索阶段和后搜索阶段。在预搜索阶段,使用直接的第一个目标token优化方法,快速生成候选后缀。在后搜索阶段,使用传统的梯度下降方法,针对特定模型对候选后缀进行微调。此外,论文还提出了i-DeGCG,一种交错变体,通过迭代地利用自迁移性来进一步加速搜索过程。整体流程是:首先进行预搜索,然后进行后搜索,对于i-DeGCG,则是在预搜索和后搜索之间进行多次迭代的自迁移。

关键创新:论文的关键创新在于将对抗性后缀的搜索过程解耦为行为无关的预搜索和行为相关的后搜索,并引入了直接的第一个目标token优化方法。这种解耦使得可以利用不同模型之间的共性,加速搜索过程,并提高后缀的可迁移性。此外,i-DeGCG通过迭代的自迁移进一步提升了搜索效率。

关键设计:预搜索阶段的关键设计是直接优化第一个目标token。具体来说,通过计算梯度,选择能够最大程度地提高目标token概率的token作为后缀的第一个token。后搜索阶段则采用传统的梯度下降方法,例如GCG,对整个后缀进行微调。i-DeGCG的关键设计在于迭代地进行自迁移,即在预搜索和后搜索之间进行多次迭代,每次迭代都利用上一次迭代的结果来指导下一次迭代的搜索方向。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DeGCG框架及其变体i-DeGCG在HarmBench数据集上表现出显著的性能提升。特别是在Llama2-chat-7b模型上,i-DeGCG在有效集和测试集上的攻击成功率(ASR)分别达到了43.9%(+22.2%)和39.0%(+19.5%),相比基线方法有显著提升。这些结果表明,该方法在加速对抗性后缀生成和提高攻击成功率方面具有显著优势。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性,通过高效生成对抗性后缀,可以更快速地发现模型的潜在漏洞,并有针对性地进行防御。此外,该方法还可以用于评估不同模型的鲁棒性,并指导模型的安全训练和部署。未来,该技术有望应用于自动化安全测试和红队演练等领域。

📄 摘要(原文)

Language Language Models (LLMs) face safety concerns due to potential misuse by malicious users. Recent red-teaming efforts have identified adversarial suffixes capable of jailbreaking LLMs using the gradient-based search algorithm Greedy Coordinate Gradient (GCG). However, GCG struggles with computational inefficiency, limiting further investigations regarding suffix transferability and scalability across models and data. In this work, we bridge the connection between search efficiency and suffix transferability. We propose a two-stage transfer learning framework, DeGCG, which decouples the search process into behavior-agnostic pre-searching and behavior-relevant post-searching. Specifically, we employ direct first target token optimization in pre-searching to facilitate the search process. We apply our approach to cross-model, cross-data, and self-transfer scenarios. Furthermore, we introduce an interleaved variant of our approach, i-DeGCG, which iteratively leverages self-transferability to accelerate the search process. Experiments on HarmBench demonstrate the efficiency of our approach across various models and domains. Notably, our i-DeGCG outperforms the baseline on Llama2-chat-7b with ASRs of $43.9$ ($+22.2$) and $39.0$ ($+19.5$) on valid and test sets, respectively. Further analysis on cross-model transfer indicates the pivotal role of first target token optimization in leveraging suffix transferability for efficient searching.