Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs

📄 arXiv: 2406.09324v3 📥 PDF

作者: Zhao Xu, Fan Liu, Hao Liu

分类: cs.CR, cs.AI, cs.CL

发布日期: 2024-06-13 (更新: 2024-11-06)

备注: Accepted by NeurIPS 2024

🔗 代码/项目: GITHUB


💡 一句话要点

JailTrickBench:针对防御增强型LLM的越狱攻击基准测试框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 基准测试 安全性评估 防御机制

📋 核心要点

  1. 现有越狱攻击研究主要关注LLM自身漏洞,忽略了攻击设置多样性以及防御增强型LLM的评估。
  2. JailTrickBench旨在通过系统评估不同攻击设置对LLM性能的影响,为越狱攻击提供标准化基准。
  3. 实验结果表明,针对防御增强型LLM的越狱攻击评估需要更标准化的基准测试方法。

📝 摘要(中文)

大型语言模型(LLMs)在零样本执行复杂任务方面表现出显著能力,但易受越狱攻击,并可能被操纵产生有害输出。现有研究主要将越狱攻击分为token级别和prompt级别。然而,先前的工作主要忽略了越狱攻击的各种关键因素,大多数研究集中于LLM漏洞,缺乏对防御增强型LLM的探索。为了解决这些问题,我们引入了JailTrickBench,旨在评估各种攻击设置对LLM性能的影响,并为越狱攻击提供基准,鼓励采用标准化评估框架。具体而言,我们从目标级别和攻击级别的角度评估了在LLM上实施越狱攻击的八个关键因素。我们还在两个广泛使用的数据集上,针对六种防御方法进行了七种代表性的越狱攻击,涵盖了大约354个实验,并在A800-80G上花费了约55,000个GPU小时。我们的实验结果强调了需要标准化基准测试来评估这些攻击在防御增强型LLM上的效果。我们的代码可在https://github.com/usail-hkust/JailTrickBench获取。

🔬 方法详解

问题定义:现有针对LLM的越狱攻击研究存在以下痛点:一是忽略了越狱攻击中多种关键因素的影响,例如目标级别和攻击级别的具体设置;二是缺乏对防御增强型LLM的全面评估,导致无法有效衡量攻击的真实效果。因此,需要一个更全面、更标准的基准测试框架来评估越狱攻击。

核心思路:JailTrickBench的核心思路是从目标级别和攻击级别两个维度,系统性地评估越狱攻击的关键因素。通过控制这些因素,可以更精确地衡量不同攻击方法的效果,并为防御增强型LLM提供更可靠的评估。

技术框架:JailTrickBench的整体框架包括以下几个主要部分:1) 定义越狱攻击的八个关键因素(目标级别和攻击级别);2) 选择七种代表性的越狱攻击方法;3) 选择六种防御方法;4) 在两个广泛使用的数据集上进行实验;5) 使用标准化指标评估攻击效果。

关键创新:JailTrickBench的关键创新在于其系统性地考虑了越狱攻击的多个关键因素,并将其纳入到一个统一的评估框架中。与以往研究主要关注LLM自身漏洞不同,JailTrickBench更关注攻击设置对攻击效果的影响,从而提供更全面的评估。

关键设计:JailTrickBench的关键设计包括:1) 八个关键因素的选择,这些因素涵盖了目标级别(例如,攻击目标的敏感程度)和攻击级别(例如,攻击prompt的复杂程度);2) 七种代表性攻击方法的选择,这些方法覆盖了不同类型的越狱攻击;3) 六种防御方法的选择,这些方法代表了不同的防御策略;4) 实验设置,包括数据集的选择、评估指标的选择等。

🖼️ 关键图片

img_0

📊 实验亮点

该研究在A800-80G GPU上进行了约55,000 GPU小时的实验,涵盖了354个实验。实验结果表明,不同的攻击设置对LLM的越狱攻击成功率有显著影响,并且针对防御增强型LLM的越狱攻击评估需要更标准化的基准测试方法。该研究为未来的LLM安全研究提供了重要的参考。

🎯 应用场景

JailTrickBench可用于评估和比较不同LLM的安全性,指导LLM的防御机制设计,并帮助开发者更好地理解和防范潜在的越狱攻击。该基准测试框架能够促进LLM安全研究的标准化,并推动更安全、更可靠的LLM应用开发。

📄 摘要(原文)

Although Large Language Models (LLMs) have demonstrated significant capabilities in executing complex tasks in a zero-shot manner, they are susceptible to jailbreak attacks and can be manipulated to produce harmful outputs. Recently, a growing body of research has categorized jailbreak attacks into token-level and prompt-level attacks. However, previous work primarily overlooks the diverse key factors of jailbreak attacks, with most studies concentrating on LLM vulnerabilities and lacking exploration of defense-enhanced LLMs. To address these issues, we introduced $\textbf{JailTrickBench}$ to evaluate the impact of various attack settings on LLM performance and provide a baseline for jailbreak attacks, encouraging the adoption of a standardized evaluation framework. Specifically, we evaluate the eight key factors of implementing jailbreak attacks on LLMs from both target-level and attack-level perspectives. We further conduct seven representative jailbreak attacks on six defense methods across two widely used datasets, encompassing approximately 354 experiments with about 55,000 GPU hours on A800-80G. Our experimental results highlight the need for standardized benchmarking to evaluate these attacks on defense-enhanced LLMs. Our code is available at https://github.com/usail-hkust/JailTrickBench.