Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

📄 arXiv: 2605.00123v1 📥 PDF

作者: Shubham Kumar, Narendra Ahuja

分类: cs.AI

发布日期: 2026-04-30

备注: Pre-print


💡 一句话要点

提出LOCA方法,为大语言模型越狱攻击提供最小化、局部化和因果解释

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 因果解释 局部解释 中间表示 安全漏洞 可解释性

📋 核心要点

  1. 现有方法缺乏对特定越狱攻击成功原因的局部化解释,无法针对不同攻击类型和模型提供有效分析。
  2. LOCA通过识别最小的、可解释的中间表示变化集合,来因果地诱导模型拒绝原本成功的越狱请求。
  3. 实验表明,LOCA仅需平均六次可解释的更改即可诱导模型拒绝,优于需要更多更改且效果不佳的现有方法。

📝 摘要(中文)

经过安全训练的大型语言模型(LLMs)经常可以通过越狱提示被诱导回答有害请求。由于我们缺乏对LLMs易受越狱攻击的根本原因的理解,未来在更高风险环境中自主运行的前沿模型可能同样容易受到此类攻击。先前的工作通过检查模型的中间表示来研究越狱的成功,识别出其中因果编码有害性和拒绝等概念的方向。然后,他们将所有越狱攻击全局地解释为试图减少或加强这些概念(例如,减少有害性)。然而,不同的越狱策略可能通过加强或抑制不同的中间概念而成功,并且相同的越狱策略可能不适用于不同的有害请求类别(例如,暴力与网络攻击);因此,我们寻求给出局部解释——即,为什么这个特定的越狱成功了?为了解决这个差距,我们引入LOCA,一种通过识别最小的可解释的中间表示变化集合来提供越狱成功的局部、因果解释的方法,这些变化因果地诱导模型拒绝原本成功的越狱请求。我们在来自大型越狱基准测试的Gemma和Llama聊天模型上的有害的原始-越狱对上评估LOCA,并与适应此设置的先前方法进行比较。LOCA可以通过平均进行六次可解释的更改来成功诱导拒绝;即使经过20次更改,先前的工作通常也无法实现拒绝。LOCA是朝着对LLM中越狱成功的机制性、局部解释迈出的一步。代码即将发布。

🔬 方法详解

问题定义:现有方法通常采用全局视角解释越狱攻击,即将所有攻击归结为减少或加强某些概念(如有害性)。这种方法忽略了不同越狱策略和不同有害请求类别之间的差异,无法提供针对特定攻击的细粒度解释。因此,需要一种能够针对特定越狱攻击提供局部化解释的方法,以理解其成功的原因。

核心思路:LOCA的核心思路是通过识别最小的中间表示变化集合,这些变化能够因果地诱导模型拒绝原本成功的越狱请求。这意味着LOCA试图找到导致模型行为改变的关键因素,而不是简单地分析整个中间表示。通过关注最小的变化集合,LOCA能够提供更简洁、更易于理解的解释。

技术框架:LOCA方法主要包含以下几个阶段:1) 给定一个成功的越狱攻击;2) 识别模型中间表示中可能影响模型行为的潜在变化;3) 通过因果干预,确定哪些变化能够诱导模型拒绝该攻击;4) 选择最小的变化集合,以提供最简洁的解释。这个过程可能涉及对模型中间层进行多次干预和评估,以确定哪些变化是真正重要的。

关键创新:LOCA的关键创新在于其局部化和因果性的解释方法。与全局解释方法不同,LOCA关注特定越狱攻击的成功原因,并试图找到导致模型行为改变的最小因素集合。此外,LOCA采用因果干预的方法,确保识别出的变化确实能够因果地影响模型的行为,而不是仅仅是相关性。

关键设计:LOCA的具体实现细节可能包括:1) 如何选择中间表示中的潜在变化;2) 如何进行因果干预,例如通过修改中间表示的值;3) 如何评估模型对干预的响应,例如通过检查模型的输出是否为拒绝;4) 如何选择最小的变化集合,例如通过使用贪婪算法或优化方法。这些设计细节需要根据具体的模型和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LOCA在Gemma和Llama聊天模型上的实验表明,平均仅需六次可解释的更改即可成功诱导模型拒绝越狱攻击。相比之下,现有方法即使经过20次更改也难以达到相同的效果。这表明LOCA能够更有效地识别导致越狱攻击成功的关键因素,并提供更简洁、更准确的解释。

🎯 应用场景

LOCA可用于分析和理解大型语言模型的安全漏洞,帮助研究人员和开发者识别模型易受攻击的弱点,并设计更有效的防御机制。此外,LOCA还可以用于评估不同安全训练方法的效果,并指导模型的安全优化。该研究对于提高LLM在实际应用中的安全性和可靠性具有重要意义。

📄 摘要(原文)

Safety trained large language models (LLMs) can often be induced to answer harmful requests through jailbreak prompts. Because we lack a robust understanding of why LLMs are susceptible to jailbreaks, future frontier models operating more autonomously in higher-stakes settings may similarly be vulnerable to such attacks. Prior work has studied jailbreak success by examining the model's intermediate representations, identifying directions in this space that causally encode concepts like harmfulness and refusal. Then, they globally explain all jailbreak attacks as attempting to reduce or strengthen these concepts (e.g., reduce harmfulness). However, different jailbreak strategies may succeed by strengthening or suppressing different intermediate concepts, and the same jailbreak strategy may not work for different harmful request categories (e.g., violence vs. cyberattack); thus, we seek to give a local explanation -- i.e., why did this specific jailbreak succeed? To address this gap, we introduce LOCA, a method that gives Local, CAusal explanations of jailbreak success by identifying a minimal set of interpretable, intermediate representation changes that causally induce model refusal on an otherwise successful jailbreak request. We evaluate LOCA on harmful original-jailbreak pairs from a large jailbreak benchmark across Gemma and Llama chat models, comparing against prior methods adapted to this setting. LOCA can successfully induce refusal by making, on average, six interpretable changes; prior work routinely fails to achieve refusal even after 20 changes. LOCA is a step toward mechanistic, local explanations of jailbreak success in LLMs. Code to be released.