RepIt: Steering Language Models with Concept-Specific Refusal Vectors

作者: Vincent Siu, Nathan W. Henry, Nicholas Crispino, Yang Liu, Dawn Song, Chenguang Wang

分类: cs.AI, cs.CL

发布日期: 2025-09-16 (更新: 2025-10-20)

💡 一句话要点

RepIt：利用概念特定拒绝向量引导语言模型，实现精准干预。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型引导 激活引导 概念特定表示 拒绝向量 安全对齐

📋 核心要点

现有激活引导方法在大型语言模型中存在副作用，难以实现对特定概念的精准干预。
RepIt框架通过隔离概念特定的拒绝向量，实现对LLM行为的细粒度控制和干预。
实验表明，RepIt能选择性抑制特定概念的拒绝，同时保持模型在其他方面的安全性，且仅需少量数据。

📝 摘要（中文）

激活引导是大型语言模型(LLM)中一个新兴的研究领域，但现有方法常常会产生超出预期的广泛影响。这促使我们分离更纯粹的概念向量，以便进行有针对性的干预，并更精细地理解LLM的行为。我们提出了RepIt，一个简单且数据高效的框架，用于隔离概念特定的表示。在五个前沿LLM上，RepIt实现了精确的干预：它选择性地抑制目标概念上的拒绝，同时保留其他地方的拒绝，从而生成能够回答WMD相关问题，同时在标准基准测试中仍然保持安全的模型。我们进一步表明，校正信号仅定位于100-200个神经元，并且可以从单个A6000上的十几个示例中提取稳健的目标表示。这种效率引发了一个双重担忧：可以使用适度的计算和数据进行操作，以扩展到代表性不足的数据稀缺主题，同时规避现有的基准测试。通过使用RepIt解耦拒绝向量，这项工作表明，有针对性的干预可以抵消过度泛化，为更精细地控制模型行为奠定基础。

🔬 方法详解

问题定义：大型语言模型（LLM）在某些情况下会过度泛化，导致不必要的拒绝回答。例如，模型可能因为担心生成有害内容而拒绝回答与武器相关的问题，即使这些问题本身是无害的。现有激活引导方法虽然可以调整LLM的行为，但往往会产生副作用，影响模型在其他方面的表现。因此，需要一种更精确的方法来控制LLM的行为，使其只在特定概念上允许回答，而在其他方面保持安全。

核心思路：RepIt的核心思路是学习概念特定的拒绝向量，并利用这些向量来引导LLM的行为。具体来说，RepIt首先识别出导致模型拒绝回答特定概念相关问题的神经元激活模式。然后，它学习一个拒绝向量，该向量可以抑制这些神经元的激活，从而使模型能够回答相关问题，而不会影响其在其他方面的安全性。这种方法的核心在于将拒绝行为与特定概念解耦，从而实现更精细的控制。

技术框架：RepIt框架主要包含以下几个步骤：1) 数据收集：收集与目标概念相关的问题和对应的拒绝回答。2) 激活分析：分析LLM在处理这些问题时的神经元激活模式，识别出与拒绝行为相关的神经元。3) 拒绝向量学习：使用少量数据学习一个拒绝向量，该向量可以抑制与拒绝行为相关的神经元的激活。4) 干预：将学习到的拒绝向量应用于LLM，使其能够回答目标概念相关的问题，同时保持在其他方面的安全性。

关键创新：RepIt的关键创新在于它能够以数据高效的方式学习概念特定的拒绝向量。与现有方法相比，RepIt只需要少量数据（例如，单个A6000上的十几个示例）就可以提取稳健的目标表示。此外，RepIt能够将校正信号定位到少量神经元（例如，100-200个），从而实现更精确的干预。

关键设计：RepIt的关键设计包括：1) 使用对比学习来学习拒绝向量，目标是最大化目标概念相关问题和非目标概念相关问题之间的激活差异。2) 使用L1正则化来鼓励拒绝向量的稀疏性，从而将校正信号定位到少量神经元。3) 使用简单的线性干预方法，将拒绝向量添加到LLM的激活中。

📊 实验亮点

RepIt在五个前沿LLM上进行了评估，结果表明它可以选择性地抑制目标概念上的拒绝，同时保留其他地方的拒绝。例如，RepIt能够使模型回答WMD相关的问题，同时在标准安全基准测试中仍然保持安全。此外，实验表明，校正信号仅定位于100-200个神经元，并且可以从单个A6000上的十几个示例中提取稳健的目标表示。

🎯 应用场景

RepIt可用于提高LLM在特定领域的可用性，例如，允许模型回答与医疗或法律相关的问题，而不会生成有害信息。它还可以用于解决LLM中的偏见问题，例如，通过抑制与特定群体相关的负面刻板印象。此外，RepIt可以帮助研究人员更好地理解LLM的行为，例如，通过分析拒绝向量来识别导致模型拒绝回答特定问题的因素。

📄 摘要（原文）

While activation steering in large language models (LLMs) is a growing area of research, methods can often incur broader effects than desired. This motivates isolation of purer concept vectors to enable targeted interventions and understand LLM behavior at a more granular level. We present RepIt, a simple and data-efficient framework for isolating concept-specific representations. Across five frontier LLMs, RepIt enables precise interventions: it selectively suppresses refusal on targeted concepts while preserving refusal elsewhere, producing models that answer WMD-related questions while still scoring as safe on standard benchmarks. We further show that the corrective signal localizes to just 100-200 neurons and that robust target representations can be extracted from as few as a dozen examples on a single A6000. This efficiency raises a dual concern: manipulations can be performed with modest compute and data to extend to underrepresented data-scarce topics while evading existing benchmarks. By disentangling refusal vectors with RepIt, this work demonstrates that targeted interventions can counteract overgeneralization, laying the foundation for more granular control of model behavior.

RepIt: Steering Language Models with Concept-Specific Refusal Vectors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册