Beyond I'm Sorry, I Can't: Dissecting Large Language Model Refusal

📄 arXiv: 2509.09708v2 📥 PDF

作者: Nirmalendu Prakash, Yeo Wei Jie, Amir Abdullah, Ranjan Satapathy, Erik Cambria, Roy Ka Wei Lee

分类: cs.CL, cs.AI

发布日期: 2025-09-07 (更新: 2025-10-10)


💡 一句话要点

利用稀疏自编码器剖析大语言模型拒绝行为并实现越狱

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 拒绝行为 稀疏自编码器 越狱攻击 安全性 可解释性 残差流

📋 核心要点

  1. 大型语言模型拒绝有害指令是安全关键,但拒绝行为的内在机制尚不明确。
  2. 通过稀疏自编码器(SAE)分析模型内部激活,寻找导致拒绝行为的关键特征。
  3. 实验表明,操纵这些特征可以使模型从拒绝变为顺从,实现对模型的越狱。

📝 摘要(中文)

指令微调的大语言模型(LLM)对有害提示的拒绝是关键的安全行为,但对其内部原因的理解仍然不足。本文研究了两个公开的指令微调模型Gemma-2-2B-IT和LLaMA-3.1-8B-IT,使用在残差流激活上训练的稀疏自编码器(SAE)。给定一个有害提示,我们在SAE潜在空间中搜索特征集,这些特征集的消融可以将模型从拒绝状态翻转到顺从状态,从而证明了因果影响并创建了一个越狱。我们的搜索分三个阶段进行:(1)拒绝方向:找到一个介导拒绝的方向,并收集该方向附近的SAE特征;(2)贪婪过滤:修剪到最小集合;(3)交互发现:拟合一个因子分解机(FM),以捕获剩余活动特征和最小集合之间的非线性交互。该流程产生了一组广泛的越狱关键特征,从而深入了解了拒绝的机制基础。此外,我们发现了冗余特征的证据,这些特征在早期特征被抑制之前保持休眠状态。我们的发现突出了通过操纵可解释的潜在空间对安全行为进行细粒度审计和有针对性干预的潜力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)拒绝有害指令背后的机制问题。现有方法难以理解LLM拒绝行为的内部原因,缺乏细粒度的审计和干预手段。理解拒绝机制有助于提高LLM的安全性,防止恶意利用。

核心思路:论文的核心思路是利用稀疏自编码器(SAE)来提取LLM残差流中的关键特征,这些特征与拒绝行为密切相关。通过识别和操纵这些特征,可以改变LLM的拒绝行为,从而实现对模型的越狱。这种方法提供了一种可解释的方式来理解LLM的内部运作机制。

技术框架:整体框架包含以下三个主要阶段: 1. 拒绝方向(Refusal Direction):首先,确定一个“拒绝方向”,该方向代表模型拒绝行为的主要趋势。然后,收集SAE潜在空间中靠近该方向的特征。 2. 贪婪过滤(Greedy Filtering):通过贪婪算法,逐步移除对拒绝行为影响较小的特征,最终得到一个最小的关键特征集合。 3. 交互发现(Interaction Discovery):使用因子分解机(FM)来建模剩余特征之间的非线性交互关系,从而更全面地理解特征之间的相互作用。

关键创新:论文的关键创新在于使用稀疏自编码器(SAE)来分析LLM的残差流,并识别出与拒绝行为相关的关键特征。通过操纵这些特征,可以实现对LLM拒绝行为的控制,从而实现越狱。此外,论文还发现了冗余特征的存在,这些特征在其他特征被抑制后才会激活。

关键设计: * 稀疏自编码器(SAE):用于提取LLM残差流中的关键特征,通过稀疏性约束,保证提取的特征具有较高的可解释性。 * 拒绝方向:通过分析模型在拒绝和顺从状态下的激活差异,确定一个代表拒绝行为的主要方向。 * 因子分解机(FM):用于建模特征之间的非线性交互关系,从而更全面地理解特征之间的相互作用。 * 消融实验:通过移除或修改关键特征,观察模型行为的变化,从而验证特征的因果关系。

📊 实验亮点

实验结果表明,通过操纵SAE提取的关键特征,可以有效地使Gemma-2-2B-IT和LLaMA-3.1-8B-IT模型从拒绝状态转变为顺从状态,实现了对模型的越狱。研究还发现了冗余特征,进一步揭示了LLM拒绝行为的复杂性。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性,通过细粒度审计和有针对性的干预,防止模型被用于恶意目的。此外,该方法还可以用于理解LLM的内部运作机制,为开发更安全、更可靠的LLM提供理论基础。

📄 摘要(原文)

Refusal on harmful prompts is a key safety behaviour in instruction-tuned large language models (LLMs), yet the internal causes of this behaviour remain poorly understood. We study two public instruction-tuned models, Gemma-2-2B-IT and LLaMA-3.1-8B-IT, using sparse autoencoders (SAEs) trained on residual-stream activations. Given a harmful prompt, we search the SAE latent space for feature sets whose ablation flips the model from refusal to compliance, demonstrating causal influence and creating a jailbreak. Our search proceeds in three stages: (1) Refusal Direction: find a refusal-mediating direction and collect SAE features near that direction; (2) Greedy Filtering: prune to a minimal set; and (3) Interaction Discovery: fit a factorization machine (FM) that captures nonlinear interactions among the remaining active features and the minimal set. This pipeline yields a broad set of jailbreak-critical features, offering insight into the mechanistic basis of refusal. Moreover, we find evidence of redundant features that remain dormant unless earlier features are suppressed. Our findings highlight the potential for fine-grained auditing and targeted intervention in safety behaviours by manipulating the interpretable latent space.