An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks
作者: Valentyn Boreiko, Alexander Panfilov, Vaclav Voracek, Matthias Hein, Jonas Geiping
分类: cs.LG, cs.AI, cs.CL, cs.CR
发布日期: 2024-10-21 (更新: 2025-05-30)
💡 一句话要点
提出一种可解释的N-gram困惑度威胁模型以评估LLM越狱攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 越狱攻击 语言模型 N-gram模型 安全性评估 可解释性 离散优化 文本生成
📋 核心要点
- 现有的越狱攻击方法在流畅性和计算复杂度上存在显著差异,缺乏统一的评估标准。
- 本文提出了一种基于N-gram语言模型的威胁模型,能够无关模型地评估越狱攻击的可能性。
- 实验结果表明,基于离散优化的攻击在成功率上显著优于传统的LLM基于攻击,且成功率低于以往报告。
📝 摘要(中文)
针对安全调优的语言模型(LLMs),已有多种越狱攻击方法被提出以获取有害响应。这些方法在原始设置中大多成功,但在流畅性和计算努力上差异显著。本文提出了一种统一的威胁模型,用于对这些方法进行原则性比较。该模型检查给定越狱在文本分布中发生的可能性。我们基于1T标记构建了一个N-gram语言模型,与基于模型的困惑度不同,这种方法允许无关模型、非参数且本质上可解释的评估。我们将流行攻击适配到该威胁模型,并首次在相同基础上对这些攻击进行基准测试。经过广泛比较,我们发现针对现代安全调优模型的攻击成功率低于先前报告,基于离散优化的攻击显著优于近期的LLM基于攻击。该威胁模型的可解释性使得对越狱攻击的全面分析和比较成为可能。
🔬 方法详解
问题定义:本文旨在解决现有越狱攻击方法评估标准不统一的问题,现有方法在流畅性和计算复杂度上存在显著差异,难以进行有效比较。
核心思路:提出一种基于N-gram语言模型的威胁模型,能够无关模型地评估越狱攻击的可能性,提供可解释的分析框架。
技术框架:整体架构包括数据收集、N-gram模型构建、攻击适配与基准测试等主要模块。首先,收集1T标记数据以构建N-gram模型,然后将流行的越狱攻击适配到该模型,最后进行系统的比较分析。
关键创新:最重要的技术创新点在于提出了一种可解释的、无关模型的威胁模型,能够对越狱攻击进行全面分析,与现有基于模型的评估方法相比,具有更高的灵活性和可解释性。
关键设计:在模型构建中,采用了大规模的1T标记数据,确保了模型的泛化能力;在攻击适配中,重点分析了稀有的二元组,特别是那些在真实文本中缺失或特定于某些数据集的二元组。
🖼️ 关键图片
📊 实验亮点
实验结果显示,针对现代安全调优模型的攻击成功率低于以往报告,且基于离散优化的攻击在成功率上显著优于LLM基于攻击,提供了更有效的攻击策略。具体数据未提供,需进一步查阅原文。
🎯 应用场景
该研究的潜在应用领域包括安全调优的语言模型评估、越狱攻击的防御策略设计以及文本生成系统的安全性分析。通过提供可解释的威胁模型,研究者和开发者可以更好地理解和应对潜在的安全威胁,提升系统的安全性和可靠性。
📄 摘要(原文)
A plethora of jailbreaking attacks have been proposed to obtain harmful responses from safety-tuned LLMs. These methods largely succeed in coercing the target output in their original settings, but their attacks vary substantially in fluency and computational effort. In this work, we propose a unified threat model for the principled comparison of these methods. Our threat model checks if a given jailbreak is likely to occur in the distribution of text. For this, we build an N-gram language model on 1T tokens, which, unlike model-based perplexity, allows for an LLM-agnostic, nonparametric, and inherently interpretable evaluation. We adapt popular attacks to this threat model, and, for the first time, benchmark these attacks on equal footing with it. After an extensive comparison, we find attack success rates against safety-tuned modern models to be lower than previously presented and that attacks based on discrete optimization significantly outperform recent LLM-based attacks. Being inherently interpretable, our threat model allows for a comprehensive analysis and comparison of jailbreak attacks. We find that effective attacks exploit and abuse infrequent bigrams, either selecting the ones absent from real-world text or rare ones, e.g., specific to Reddit or code datasets.