What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal
作者: Stephen Cheng, Sarah Wiegreffe, Dinesh Manocha
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-04-09
备注: 9 pages + appendix, 7 figures
💡 一句话要点
通过机制性案例研究揭示表征引导的内在机理,聚焦于拒绝回答现象
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 引导向量 激活修补 注意力机制 模型对齐 可解释性 拒绝回答
📋 核心要点
- 大型语言模型的对齐依赖于引导向量,但对其内部工作机制缺乏深入理解,阻碍了进一步优化。
- 论文提出多token激活修补框架,深入分析引导向量如何影响模型内部电路,特别是注意力机制。
- 实验表明,引导向量主要作用于注意力机制的OV电路,且可高度稀疏化,同时保持性能。
📝 摘要(中文)
将引导向量应用于大型语言模型(LLMs)是一种高效且有效的模型对齐技术,但我们缺乏对其工作原理的可解释性解释——特别是,引导向量影响哪些内部机制,以及这如何导致不同的模型输出。为了研究引导向量有效性背后的因果机制,我们对拒绝回答进行了一项全面的案例研究。我们提出了一个多token激活修补框架,并发现不同的引导方法在同一层应用时利用功能上可互换的电路。这些电路表明,引导向量主要通过OV电路与注意力机制交互,而很大程度上忽略了QK电路——在引导期间冻结所有注意力分数仅导致两个模型系列的性能下降8.75%。对引导后的OV电路的数学分解进一步揭示了语义上可解释的概念,即使在引导向量本身不具备这种能力的情况下也是如此。利用激活修补结果,我们表明引导向量可以被稀疏化高达90-99%,同时保留大部分性能,并且不同的引导方法在重要的维度子集上达成一致。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)中引导向量(steering vectors)工作机制不明确的问题,特别是引导向量如何影响模型内部电路,从而改变模型输出。现有方法缺乏对引导向量内在机制的解释,难以优化和改进引导策略。具体而言,论文聚焦于“拒绝回答”这一现象,研究引导向量如何影响模型拒绝回答的行为。
核心思路:论文的核心思路是通过激活修补(activation patching)技术,系统性地分析引导向量对模型内部不同电路的影响。通过干预模型的中间层激活,观察模型输出的变化,从而推断引导向量的关键作用路径。此外,论文还对引导后的OV电路进行数学分解,试图揭示其中蕴含的语义信息。
技术框架:论文提出的技术框架主要包含以下几个步骤:1) 选择一个特定的行为(如拒绝回答)作为研究对象;2) 应用不同的引导方法,使模型表现出目标行为;3) 使用多token激活修补框架,系统性地干预模型不同层的激活,观察模型输出的变化;4) 对关键电路(如OV电路)进行数学分解,分析其内部结构和语义信息;5) 通过稀疏化引导向量,验证关键维度的重要性。
关键创新:论文的关键创新在于:1) 提出了一个多token激活修补框架,能够更精细地分析引导向量对模型内部电路的影响;2) 发现引导向量主要作用于注意力机制的OV电路,而对QK电路的影响较小;3) 通过数学分解,揭示了OV电路中蕴含的语义信息,即使引导向量本身不具备可解释性;4) 证明了引导向量可以被高度稀疏化,同时保持性能,这为优化引导策略提供了新的思路。
关键设计:论文的关键设计包括:1) 多token激活修补框架,允许对多个token的激活进行干预,从而更全面地分析引导向量的影响;2) 对OV电路进行奇异值分解(SVD)等数学操作,提取其中的语义信息;3) 通过L1正则化等方法,对引导向量进行稀疏化,并评估其对模型性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同的引导方法在同一层应用时,会利用功能上可互换的电路。引导向量主要通过OV电路与注意力机制交互,而对QK电路的影响较小。在引导期间冻结所有注意力分数仅导致两个模型系列的性能下降8.75%。引导向量可以被稀疏化高达90-99%,同时保留大部分性能,且不同引导方法在重要的维度子集上达成一致。
🎯 应用场景
该研究成果可应用于提升大型语言模型的可控性和安全性,例如,通过精确控制模型的拒绝回答行为,避免模型生成有害或不准确的信息。此外,该研究也为开发更高效、更可解释的引导策略提供了理论基础,有助于降低模型对齐的成本和难度。未来,该研究思路可推广到其他模型行为的分析和控制。
📄 摘要(原文)
Applying steering vectors to large language models (LLMs) is an efficient and effective model alignment technique, but we lack an interpretable explanation for how it works-- specifically, what internal mechanisms steering vectors affect and how this results in different model outputs. To investigate the causal mechanisms underlying the effectiveness of steering vectors, we conduct a comprehensive case study on refusal. We propose a multi-token activation patching framework and discover that different steering methodologies leverage functionally interchangeable circuits when applied at the same layer. These circuits reveal that steering vectors primarily interact with the attention mechanism through the OV circuit while largely ignoring the QK circuit-- freezing all attention scores during steering drops performance by only 8.75% across two model families. A mathematical decomposition of the steered OV circuit further reveals semantically interpretable concepts, even in cases where the steering vector itself does not. Leveraging the activation patching results, we show that steering vectors can be sparsified by up to 90-99% while retaining most performance, and that different steering methodologies agree on a subset of important dimensions.