SABER: Uncovering Vulnerabilities in Safety Alignment via Cross-Layer Residual Connection

📄 arXiv: 2509.16060v1 📥 PDF

作者: Maithili Joshi, Palash Nandi, Tanmoy Chakraborty

分类: cs.LG, cs.CL

发布日期: 2025-09-19

备注: Accepted in EMNLP'25 Main

🔗 代码/项目: GITHUB


💡 一句话要点

SABER:通过跨层残差连接揭示安全对齐大语言模型的脆弱性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全对齐 越狱攻击 残差连接 白盒攻击

📋 核心要点

  1. 现有安全对齐的大语言模型仍存在越狱漏洞,攻击者可诱导模型产生有害输出,安全机制存在被绕过的风险。
  2. SABER 方法通过在模型的中间层引入残差连接,绕过安全对齐机制,从而实现越狱攻击,无需复杂的 prompt 工程。
  3. 实验表明,SABER 方法在 HarmBench 测试集上显著优于现有基线方法,越狱成功率提升了 51%,且对模型性能影响较小。

📝 摘要(中文)

大型语言模型(LLMs)经过安全对齐训练,具备强大的语言理解能力。这些模型通常经过细致的对齐程序,涉及人工反馈,以确保接受安全输入,同时拒绝有害或不安全的输入。然而,尽管规模庞大且进行了对齐工作,LLMs 仍然容易受到越狱攻击,恶意用户通过操纵模型产生其明确训练要避免的有害输出。本研究发现,LLMs 中的安全机制主要嵌入在中层到后层。基于此,我们提出了一种新颖的白盒越狱方法 SABER(通过额外残差绕过安全对齐),该方法通过残差连接连接两个中间层 $s$ 和 $e$,使得 $s < e$。我们的方法在 HarmBench 测试集上比表现最佳的基线提高了 51%。此外,在 HarmBench 验证集上评估时,SABER 仅引起了轻微的困惑度变化。源代码已在 https://github.com/PalGitts/SABER 公开。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)的安全对齐漏洞问题。尽管 LLMs 经过了安全对齐训练,但仍然容易受到越狱攻击,即恶意用户可以通过特定的输入诱导模型产生有害或不安全的输出。现有方法的痛点在于,它们要么需要复杂的 prompt 工程,要么难以有效地绕过 LLMs 的安全机制。

核心思路:SABER 的核心思路是利用 LLMs 中安全机制主要集中在中层到后层的特性,通过在两个中间层之间建立残差连接,直接绕过这些安全机制。这种方法无需复杂的 prompt 设计,而是通过修改模型结构来实现越狱攻击。

技术框架:SABER 的整体框架非常简洁。它首先确定 LLM 中间层的两个层 $s$ 和 $e$,其中 $s < e$。然后,在 $s$ 和 $e$ 之间添加一个残差连接。具体来说,将第 $s$ 层的输出添加到第 $e$ 层的输入中。这个残差连接允许信息直接从较早的层传递到较晚的层,从而绕过中间的安全对齐层。

关键创新:SABER 最重要的技术创新点在于其简单而有效的越狱方法。与需要精心设计的 prompt 相比,SABER 通过修改模型结构来实现越狱,这是一种更直接、更隐蔽的攻击方式。与现有方法相比,SABER 不需要对输入进行复杂的处理,而是直接作用于模型的内部结构,从而更容易绕过安全机制。

关键设计:SABER 的关键设计在于选择合适的中间层 $s$ 和 $e$。论文中可能探讨了不同层组合对越狱效果的影响,以及如何选择最佳的 $s$ 和 $e$。此外,残差连接的权重可能也是一个需要考虑的因素,虽然论文摘要中没有明确提及,但可以推测可能存在对残差连接进行缩放或调整的设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SABER 方法在 HarmBench 测试集上取得了显著的性能提升,相较于最佳基线方法,越狱成功率提高了 51%。同时,SABER 对模型的困惑度影响很小,表明该方法在实现越狱的同时,对模型的正常语言生成能力影响不大。这一结果表明 SABER 是一种高效且隐蔽的越狱攻击方法。

🎯 应用场景

SABER 的研究成果可以应用于评估和提高大型语言模型的安全性。通过 SABER 方法,研究人员可以更容易地发现 LLMs 中的安全漏洞,并针对这些漏洞进行修复和改进。此外,该研究还可以帮助开发更有效的防御机制,以防止恶意用户利用 LLMs 进行有害活动。该研究对提升AI系统的安全性和可靠性具有重要意义。

📄 摘要(原文)

Large Language Models (LLMs) with safe-alignment training are powerful instruments with robust language comprehension capabilities. These models typically undergo meticulous alignment procedures involving human feedback to ensure the acceptance of safe inputs while rejecting harmful or unsafe ones. However, despite their massive scale and alignment efforts, LLMs remain vulnerable to jailbreak attacks, where malicious users manipulate the model to produce harmful outputs that it was explicitly trained to avoid. In this study, we find that the safety mechanisms in LLMs are predominantly embedded in the middle-to-late layers. Building on this insight, we introduce a novel white-box jailbreak method, SABER (Safety Alignment Bypass via Extra Residuals), which connects two intermediate layers $s$ and $e$ such that $s < e$, through a residual connection. Our approach achieves a 51% improvement over the best-performing baseline on the HarmBench test set. Furthermore, SABER induces only a marginal shift in perplexity when evaluated on the HarmBench validation set. The source code is publicly available at https://github.com/PalGitts/SABER.