DISCO: Disentangled Communication Steering for Large Language Models

作者: Max Torop, Aria Masoomi, Masih Eskandar, Jennifer Dy

分类: cs.LG

发布日期: 2025-09-20

💡 一句话要点

DISCO：通过解耦通信引导大型语言模型，提升控制粒度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 steering vector 注意力机制 解耦通信 模型引导

📋 核心要点

现有steering vector方法在residual stream或attention head输出上添加向量，控制粒度受限。
DISCO直接在attention head的query和value空间注入steering vector，实现更精细的控制。
实验表明，DISCO在多个数据集上优于现有方法，steering efficacy提升高达19.1%。

📝 摘要（中文）

本文提出了一种名为解耦通信（DISCO）引导的新方法，用于在推理时引导大型语言模型的输出。与以往将引导向量添加到残差流或注意力头表示的方法不同，DISCO直接将引导向量注入到注意力头内的查询和值表示空间中。研究表明，这些空间比注意力头输出更能线性区分概念，这正是使用引导向量的关键动机。论文分析了DISCO对注意力头输出的影响，揭示了DISCO解耦了一种强大的基线方法，即引导注意力输入，该方法以刚性方式隐式地修改查询和值。相比之下，DISCO直接调制这些组件，从而实现更精细的控制。在LLaMA 3.1 8B和Gemma 2 9B的多个数据集上，DISCO优于多个引导向量基线，引导效果评分比第二名高出高达19.1%。结果表明，查询和值空间是引导向量方法的强大构建块。

🔬 方法详解

问题定义：现有的大型语言模型引导方法，例如通过在残差流或注意力头输出中添加steering vector，存在控制粒度不足的问题。这些方法通常以较为僵化的方式影响模型的行为，难以实现精细化的干预和引导。因此，需要一种更灵活、更有效的引导方法，以更好地控制大型语言模型的输出。

核心思路：DISCO的核心思路是将steering vector直接注入到注意力头内的查询（query）和值（value）表示空间中。作者认为，相比于注意力头的输出，查询和值空间更能线性区分概念，因此更适合作为steering vector的作用对象。通过直接调制查询和值，DISCO能够更精细地控制注意力机制的行为，从而实现更有效的模型引导。

技术框架：DISCO方法主要包含以下几个步骤：1）选择需要引导的注意力头；2）获取该注意力头的查询和值表示；3）将steering vector注入到查询和值表示空间中；4）通过修改后的查询和值计算注意力权重和输出；5）将修改后的输出传递到后续层。整个过程在推理时进行，无需重新训练模型。

关键创新：DISCO最重要的技术创新点在于将steering vector的作用对象从注意力头输出转移到查询和值表示空间。这种改变使得引导过程更加灵活，能够实现更精细的控制。与以往隐式地修改查询和值的方法相比，DISCO直接调制这些组件，从而避免了信息损失和不必要的约束。

关键设计：DISCO的关键设计包括：1）steering vector的获取方式，可以通过训练或人工设计得到；2）steering vector的注入方式，例如直接相加或通过线性变换；3）注入steering vector的比例，需要根据具体任务进行调整；4）选择哪些注意力头进行引导，可以通过重要性分析或经验选择。

📊 实验亮点

实验结果表明，DISCO在LLaMA 3.1 8B和Gemma 2 9B等大型语言模型上取得了显著的性能提升。在多个数据集上，DISCO的steering efficacy评分比第二名高出高达19.1%。这些结果表明，查询和值空间是引导向量方法的强大构建块，DISCO能够有效地利用这些空间来实现更精细的模型控制。

🎯 应用场景

DISCO具有广泛的应用前景，例如可以用于控制大型语言模型的生成风格、提高模型的安全性、增强模型的可解释性等。在对话系统中，DISCO可以用于引导模型生成更符合用户意图的回复。在内容生成领域，DISCO可以用于控制模型生成特定主题或风格的文章。此外，DISCO还可以用于调试和优化大型语言模型，提高模型的性能和鲁棒性。

📄 摘要（原文）

A variety of recent methods guide large language model outputs via the inference-time addition of steering vectors to residual-stream or attention-head representations. In contrast, we propose to inject steering vectors directly into the query and value representation spaces within attention heads. We provide evidence that a greater portion of these spaces exhibit high linear discriminability of concepts --a key property motivating the use of steering vectors-- than attention head outputs. We analytically characterize the effect of our method, which we term DISentangled COmmunication (DISCO) Steering, on attention head outputs. Our analysis reveals that DISCO disentangles a strong but underutilized baseline, steering attention inputs, which implicitly modifies queries and values in a rigid manner. In contrast, DISCO's direct modulation of these components enables more granular control. We find that DISCO achieves superior performance over a number of steering vector baselines across multiple datasets on LLaMA 3.1 8B and Gemma 2 9B, with steering efficacy scoring up to 19.1% higher than the runner-up. Our results support the conclusion that the query and value spaces are powerful building blocks for steering vector methods.

DISCO: Disentangled Communication Steering for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册