Jailbreak Distillation: Renewable Safety Benchmarking

📄 arXiv: 2505.22037v1 📥 PDF

作者: Jingyu Zhang, Ahmed Elgohary, Xiawei Wang, A S M Iftekhar, Ahmed Magooda, Benjamin Van Durme, Daniel Khashabi, Kyle Jackson

分类: cs.CL, cs.CR, cs.SE

发布日期: 2025-05-28

备注: Project page: https://aka.ms/jailbreak-distillation


💡 一句话要点

提出Jailbreak Distillation框架,用于构建可更新的大语言模型安全基准

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型安全 安全基准 越狱攻击 提示工程 自动化评估

📋 核心要点

  1. 现有安全评估方法缺乏一致性,难以公平比较不同模型,且容易受到数据污染和饱和的影响。
  2. JBDistill框架通过提炼越狱攻击,自动构建高质量、可更新的安全基准,降低人工干预需求。
  3. 实验证明,JBDistill生成的基准在多个模型上表现出更好的泛化能力和有效性,优于现有基准。

📝 摘要(中文)

大型语言模型(LLMs)正迅速部署到关键应用中,对稳健的安全基准测试提出了迫切需求。我们提出了一种新颖的基准构建框架Jailbreak Distillation (JBDistill),该框架将“越狱”攻击提炼成高质量且易于更新的安全基准。JBDistill利用一小组开发模型和现有的越狱攻击算法来创建一个候选提示池,然后采用提示选择算法来识别有效的提示子集作为安全基准。JBDistill解决了现有安全评估中的挑战:跨模型使用一致的评估提示可确保公平比较和可重复性。它只需最少的人工干预即可重新运行JBDistill流程并生成更新的基准,从而缓解了对饱和和污染的担忧。大量实验表明,我们的基准能够稳健地推广到13个不同的评估模型(这些模型在基准构建中被排除在外),包括专有、专用和新一代的LLM,在有效性方面显著优于现有的安全基准,同时保持了高度的可分离性和多样性。因此,我们的框架为简化安全评估提供了一种有效、可持续和适应性强的解决方案。

🔬 方法详解

问题定义:现有的大语言模型安全评估方法存在以下痛点:一是评估提示不一致,导致不同模型之间的比较不公平;二是基准数据集容易受到污染和饱和,需要大量人工维护;三是难以适应快速发展的新型模型和攻击方法。因此,需要一种能够自动生成、易于更新、且具有良好泛化能力的安全基准。

核心思路:JBDistill的核心思路是将现有的越狱攻击“提炼”成高质量的安全基准。具体来说,首先利用少量开发模型和现有的越狱攻击算法生成大量的候选提示,然后通过提示选择算法筛选出有效的提示子集,作为最终的安全基准。这种方法能够自动生成基准,减少人工干预,并且可以通过定期更新开发模型和攻击算法来适应新的威胁。

技术框架:JBDistill框架主要包含以下几个阶段:1) 提示生成:利用少量开发模型和现有的越狱攻击算法生成大量的候选提示;2) 提示选择:使用提示选择算法(例如基于梯度的方法或基于模型响应的方法)从候选提示中选择出有效的提示子集;3) 基准评估:使用选定的提示子集作为安全基准,评估目标模型的安全性。整个流程可以自动化运行,并且可以定期更新开发模型和攻击算法,以适应新的威胁。

关键创新:JBDistill的关键创新在于其自动化的基准构建流程和“提炼”的思想。与传统的人工构建基准相比,JBDistill能够自动生成基准,减少人工干预,并且可以通过定期更新开发模型和攻击算法来适应新的威胁。此外,“提炼”的思想能够将现有的越狱攻击转化为高质量的安全基准,提高了基准的有效性和泛化能力。

关键设计:在提示选择阶段,可以使用不同的算法来选择有效的提示子集。例如,可以使用基于梯度的方法,选择能够最大化目标模型输出的梯度范数的提示;也可以使用基于模型响应的方法,选择能够使目标模型产生不安全或有害响应的提示。此外,还可以使用不同的指标来评估基准的质量,例如基准的有效性、可分离性和多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,JBDistill生成的基准在13个不同的评估模型上表现出良好的泛化能力,显著优于现有的安全基准。例如,在某些模型上,JBDistill的攻击成功率比现有基准高出20%以上。此外,JBDistill生成的基准还具有高度的可分离性和多样性,能够有效区分不同模型的安全性。

🎯 应用场景

JBDistill框架可用于构建和维护大语言模型的安全基准,帮助开发者评估和改进模型的安全性。该框架可以应用于各种场景,例如模型安全评估、对抗训练数据生成、以及安全策略的开发和验证。通过定期更新基准,可以及时发现和修复模型中的安全漏洞,提高模型的整体安全性。

📄 摘要(原文)

Large language models (LLMs) are rapidly deployed in critical applications, raising urgent needs for robust safety benchmarking. We propose Jailbreak Distillation (JBDistill), a novel benchmark construction framework that "distills" jailbreak attacks into high-quality and easily-updatable safety benchmarks. JBDistill utilizes a small set of development models and existing jailbreak attack algorithms to create a candidate prompt pool, then employs prompt selection algorithms to identify an effective subset of prompts as safety benchmarks. JBDistill addresses challenges in existing safety evaluation: the use of consistent evaluation prompts across models ensures fair comparisons and reproducibility. It requires minimal human effort to rerun the JBDistill pipeline and produce updated benchmarks, alleviating concerns on saturation and contamination. Extensive experiments demonstrate our benchmarks generalize robustly to 13 diverse evaluation models held out from benchmark construction, including proprietary, specialized, and newer-generation LLMs, significantly outperforming existing safety benchmarks in effectiveness while maintaining high separability and diversity. Our framework thus provides an effective, sustainable, and adaptable solution for streamlining safety evaluation.