Beyond I'm Sorry, I Can't: Dissecting Large Language Model Refusal

📄 arXiv: 2509.09708v2 📥 PDF

作者: Nirmalendu Prakash, Yeo Wei Jie, Amir Abdullah, Ranjan Satapathy, Erik Cambria, Roy Ka Wei Lee

分类: cs.CL, cs.AI

发布日期: 2025-09-07 (更新: 2025-10-10)


💡 一句话要点

利用稀疏自编码器剖析大语言模型拒绝行为,实现可控的越狱攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 拒绝行为 稀疏自编码器 越狱攻击 安全机制

📋 核心要点

  1. 大型语言模型拒绝有害指令是安全性的重要组成部分,但其内在机制尚不明确,阻碍了安全策略的优化。
  2. 本研究利用稀疏自编码器分析模型内部表征,通过寻找并操纵关键特征,实现从拒绝到顺从的“越狱”攻击。
  3. 实验揭示了影响模型拒绝行为的关键特征,并发现了冗余安全机制,为更精细的安全干预提供了可能。

📝 摘要(中文)

指令微调的大语言模型(LLMs)对有害提示的拒绝是关键的安全行为,但对其内部原因的理解仍然不足。本文研究了两个公开的指令微调模型Gemma-2-2B-IT和LLaMA-3.1-8B-IT,使用在残差流激活上训练的稀疏自编码器(SAEs)。给定一个有害提示,我们在SAE潜在空间中搜索特征集,这些特征集的消融可以将模型从拒绝翻转到顺从,从而证明因果影响并创建越狱。我们的搜索分三个阶段进行:(1)拒绝方向:找到一个拒绝介导方向,并收集该方向附近的SAE特征;(2)贪婪过滤:修剪到最小集合;(3)交互发现:拟合一个分解机(FM),捕捉剩余活跃特征和最小集合之间的非线性交互。该流程产生了一组广泛的越狱关键特征,为拒绝的机制基础提供了见解。此外,我们发现了冗余特征的证据,这些特征在早期特征被抑制之前保持休眠状态。我们的发现突出了通过操纵可解释的潜在空间,对安全行为进行细粒度审计和有针对性干预的潜力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)拒绝有害指令的内在机制不明确的问题。现有方法难以深入理解模型拒绝行为的根本原因,导致安全策略缺乏针对性和可解释性。因此,如何剖析LLM的拒绝行为,并找到能够有效控制这种行为的关键因素,是本研究要解决的核心问题。

核心思路:论文的核心思路是利用稀疏自编码器(SAEs)来分析LLM的内部表征,特别是残差流激活。通过训练SAE,将高维的激活向量映射到稀疏的潜在空间,从而提取出具有语义意义的特征。然后,通过操纵这些特征,观察模型行为的变化,从而推断出哪些特征对拒绝行为起着关键作用。这种方法的核心在于将复杂的模型行为分解为可解释的特征,从而实现对模型内部机制的理解和控制。

技术框架:整体框架包含三个主要阶段:(1)拒绝方向:首先,确定一个“拒绝方向”,即在潜在空间中,沿着这个方向移动可以显著改变模型的拒绝行为。然后,收集靠近这个方向的SAE特征。(2)贪婪过滤:为了找到最关键的特征,使用贪婪算法逐步移除不重要的特征,直到找到一个最小的特征集合,其消融能够导致模型从拒绝到顺从的转变。(3)交互发现:最后,使用分解机(FM)来建模剩余特征之间的非线性交互,从而捕捉特征之间的复杂关系。

关键创新:最重要的技术创新点在于将稀疏自编码器应用于分析LLM的拒绝行为。与传统的黑盒方法不同,这种方法能够深入到模型的内部,提取出具有语义意义的特征,并研究这些特征对模型行为的影响。此外,通过结合贪婪过滤和分解机,能够有效地找到最关键的特征集合,并捕捉特征之间的非线性交互。

关键设计:在SAE的训练过程中,使用了L1正则化来鼓励稀疏性。在贪婪过滤阶段,使用消融实验来评估每个特征的重要性。在分解机中,使用了二阶交互项来建模特征之间的非线性关系。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究通过操纵SAE潜在空间中的特征,成功实现了对Gemma-2-2B-IT和LLaMA-3.1-8B-IT模型的越狱攻击,证明了该方法能够有效控制模型的拒绝行为。此外,研究还发现了冗余的安全机制,表明模型可能存在过度防御的情况,为优化安全策略提供了新的思路。具体的性能数据未知。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性,例如通过识别并抑制有害特征,防止模型生成恶意内容。此外,该方法还可用于审计和评估模型的安全策略,发现潜在的安全漏洞。未来,该技术有望应用于开发更安全、更可信赖的人工智能系统。

📄 摘要(原文)

Refusal on harmful prompts is a key safety behaviour in instruction-tuned large language models (LLMs), yet the internal causes of this behaviour remain poorly understood. We study two public instruction-tuned models, Gemma-2-2B-IT and LLaMA-3.1-8B-IT, using sparse autoencoders (SAEs) trained on residual-stream activations. Given a harmful prompt, we search the SAE latent space for feature sets whose ablation flips the model from refusal to compliance, demonstrating causal influence and creating a jailbreak. Our search proceeds in three stages: (1) Refusal Direction: find a refusal-mediating direction and collect SAE features near that direction; (2) Greedy Filtering: prune to a minimal set; and (3) Interaction Discovery: fit a factorization machine (FM) that captures nonlinear interactions among the remaining active features and the minimal set. This pipeline yields a broad set of jailbreak-critical features, offering insight into the mechanistic basis of refusal. Moreover, we find evidence of redundant features that remain dormant unless earlier features are suppressed. Our findings highlight the potential for fine-grained auditing and targeted intervention in safety behaviours by manipulating the interpretable latent space.