Toward Understanding the Transferability of Adversarial Suffixes in Large Language Models

📄 arXiv: 2510.22014v1 📥 PDF

作者: Sarah Ball, Niki Hasrati, Alexander Robey, Avi Schwarzschild, Frauke Kreuter, Zico Kolter, Andrej Risteski

分类: cs.CL, cs.AI

发布日期: 2025-10-24


💡 一句话要点

分析对抗后缀在大型语言模型中的可迁移性,并提出提升攻击成功率的方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对抗攻击 大型语言模型 可迁移性 jailbreak攻击 拒绝方向

📋 核心要点

  1. 现有基于离散优化的jailbreak攻击缺乏对对抗后缀可迁移性的深入分析,难以解释其内在机制。
  2. 本文提出了一种基于统计属性的分析框架,用于理解对抗后缀在不同提示和模型之间的可迁移性。
  3. 实验结果表明,所提出的统计属性与迁移成功率高度相关,并可用于指导攻击策略,提升攻击效果。

📝 摘要(中文)

本文旨在理解大型语言模型中对抗后缀的可迁移性。对抗后缀是指通过离散优化生成的、附加到输入提示上的简短无意义字符串,用于诱导模型生成违禁内容。尽管可迁移性(即后缀在未经优化的提示和模型上也能成功)已被广泛证实,但缺乏对其发生原因的严格分析。本文通过实验识别出三个与迁移成功密切相关的统计属性:(1) 无后缀提示激活模型内部拒绝方向的程度;(2) 后缀诱导模型远离该方向的强度;(3) 这些偏移在与拒绝方向正交的方向上的大小。相反,提示的语义相似性与迁移成功率的相关性较弱。这些发现加深了对可迁移性的理解,并通过干预实验展示了如何利用统计分析来实际提高攻击成功率。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中对抗后缀可迁移性的理解问题。现有方法主要集中在生成有效的对抗后缀,但缺乏对这些后缀为何能在不同模型和提示之间迁移的理论解释。这种理解的缺失限制了对抗攻击的效率和可控性。

核心思路:论文的核心思路是通过分析模型内部的激活状态,特别是与“拒绝方向”相关的激活,来理解对抗后缀的作用机制。作者认为,一个成功的对抗后缀能够有效地将模型的激活状态从拒绝方向上推开,从而诱导模型生成违禁内容。可迁移性则与这种“推开”的强度和方向有关。

技术框架:论文的技术框架主要包括以下几个步骤:1) 定义“拒绝方向”,通常可以通过分析模型在拒绝生成违禁内容时的激活状态来确定;2) 测量无后缀提示激活拒绝方向的程度;3) 测量后缀诱导模型远离拒绝方向的强度和方向;4) 分析这些统计属性与迁移成功率之间的相关性;5) 基于分析结果设计干预实验,验证理论的有效性。

关键创新:论文最重要的技术创新在于提出了基于统计属性(特别是与拒绝方向相关的属性)来分析对抗后缀可迁移性的框架。与以往关注语义相似性的方法不同,该框架从模型内部状态的角度解释了可迁移性,为设计更有效的对抗攻击提供了新的思路。

关键设计:论文的关键设计包括:1) 如何定义和测量“拒绝方向”;2) 如何量化后缀诱导的激活状态偏移;3) 如何选择合适的统计指标来评估相关性;4) 如何设计干预实验来验证理论的有效性。具体的参数设置、损失函数和网络结构取决于所使用的具体模型和攻击方法,但核心思想是利用统计分析来指导攻击策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提示激活模型内部拒绝方向的程度、后缀诱导模型远离该方向的强度,以及这些偏移在与拒绝方向正交的方向上的大小,这三个统计属性与迁移成功率高度相关。相反,提示的语义相似性与迁移成功率的相关性较弱。基于这些发现,干预实验成功提高了攻击成功率。

🎯 应用场景

该研究成果可应用于提高大型语言模型的安全性,通过理解对抗攻击的内在机制,可以设计更有效的防御策略,例如对抗训练、输入过滤等。此外,该研究也有助于开发更鲁棒的语言模型,使其不易受到对抗攻击的影响。

📄 摘要(原文)

Discrete optimization-based jailbreaking attacks on large language models aim to generate short, nonsensical suffixes that, when appended onto input prompts, elicit disallowed content. Notably, these suffixes are often transferable -- succeeding on prompts and models for which they were never optimized. And yet, despite the fact that transferability is surprising and empirically well-established, the field lacks a rigorous analysis of when and why transfer occurs. To fill this gap, we identify three statistical properties that strongly correlate with transfer success across numerous experimental settings: (1) how much a prompt without a suffix activates a model's internal refusal direction, (2) how strongly a suffix induces a push away from this direction, and (3) how large these shifts are in directions orthogonal to refusal. On the other hand, we find that prompt semantic similarity only weakly correlates with transfer success. These findings lead to a more fine-grained understanding of transferability, which we use in interventional experiments to showcase how our statistical analysis can translate into practical improvements in attack success.