DISCO: Disentangled Communication Steering for Large Language Models

作者: Max Torop, Aria Masoomi, Masih Eskandar, Jennifer Dy

分类: cs.LG

发布日期: 2025-09-20

💡 一句话要点

DISCO：面向大语言模型的解耦通信引导，提升控制粒度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 引导向量 注意力机制 解耦通信 推理优化

📋 核心要点

现有方法通过在残差流或注意力头中注入引导向量来控制LLM输出，但控制粒度有限。
DISCO直接在注意力头的查询和值空间注入引导向量，实现更精细的概念控制。
实验表明，DISCO在多个数据集上显著优于现有引导向量方法，提升高达19.1%。

📝 摘要（中文）

本文提出了一种名为解耦通信（DISCO）引导的新方法，用于在大语言模型推理时引导模型输出。与以往将引导向量注入到残差流或注意力头表示中的方法不同，DISCO直接将引导向量注入到注意力头内的查询和值表示空间中。研究表明，这些空间比注意力头输出更能线性区分概念，这正是使用引导向量的关键动机。论文分析了DISCO对注意力头输出的影响，揭示了DISCO解耦了一种强大的基线方法，即引导注意力输入，该方法以刚性方式隐式地修改查询和值。相比之下，DISCO直接调制这些组件，从而实现更精细的控制。在LLaMA 3.1 8B和Gemma 2 9B上的多个数据集上，DISCO优于多个引导向量基线，引导效果评分比第二名高出高达19.1%。结果表明，查询和值空间是引导向量方法的强大构建块。

🔬 方法详解

问题定义：现有的大语言模型引导方法，例如通过在残差流或注意力头输出中添加引导向量，存在控制粒度不足的问题。这些方法通常以较为僵化的方式影响模型的行为，难以实现对特定概念的精细控制。现有方法对注意力机制内部的查询(Query)和值(Value)空间的利用不足，而这些空间可能包含更丰富的可引导信息。

核心思路：DISCO的核心思路是将引导向量直接注入到注意力头内部的查询(Query)和值(Value)表示空间中。作者认为，相比于注意力头的输出，查询和值空间更能线性区分不同的概念，因此直接在这些空间进行引导可以实现更精细的控制。通过解耦查询和值的引导，DISCO能够克服现有方法的局限性，实现更灵活和高效的引导。

技术框架：DISCO方法主要包含以下几个步骤：1) 选择需要引导的注意力头；2) 获取该注意力头的查询(Query)和值(Value)表示；3) 将引导向量分别注入到查询和值空间中；4) 使用修改后的查询和值计算注意力权重和输出。整个过程在推理阶段进行，无需重新训练模型。

关键创新：DISCO的关键创新在于直接在注意力头的查询和值空间中注入引导向量。与以往方法相比，这种方法能够更精细地控制模型的行为，实现对特定概念的更有效引导。此外，DISCO还解耦了查询和值的引导，允许对这两个空间进行独立控制，进一步提升了引导的灵活性。

关键设计：DISCO的关键设计包括：1) 引导向量的获取方式，可以通过训练得到，也可以通过其他方式获取；2) 引导向量的注入方式，可以直接相加，也可以通过其他方式进行融合；3) 对注入后的查询和值进行归一化处理，以保证模型的稳定性。论文中没有明确说明具体的损失函数或网络结构，但强调了在查询和值空间进行引导的重要性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DISCO在LLaMA 3.1 8B和Gemma 2 9B模型上，多个数据集上的引导效果显著优于现有方法，引导效果评分比第二名高出高达19.1%。这表明DISCO能够更有效地控制大语言模型的行为，实现更精细的概念引导。

🎯 应用场景

DISCO方法具有广泛的应用前景，例如可以用于控制大语言模型的生成风格、提高生成内容的安全性、以及实现对特定任务的优化。该方法可以应用于聊天机器人、文本生成、代码生成等多个领域，具有重要的实际价值。未来，可以进一步研究如何自动选择需要引导的注意力头，以及如何设计更有效的引导向量。

📄 摘要（原文）

A variety of recent methods guide large language model outputs via the inference-time addition of steering vectors to residual-stream or attention-head representations. In contrast, we propose to inject steering vectors directly into the query and value representation spaces within attention heads. We provide evidence that a greater portion of these spaces exhibit high linear discriminability of concepts --a key property motivating the use of steering vectors-- than attention head outputs. We analytically characterize the effect of our method, which we term DISentangled COmmunication (DISCO) Steering, on attention head outputs. Our analysis reveals that DISCO disentangles a strong but underutilized baseline, steering attention inputs, which implicitly modifies queries and values in a rigid manner. In contrast, DISCO's direct modulation of these components enables more granular control. We find that DISCO achieves superior performance over a number of steering vector baselines across multiple datasets on LLaMA 3.1 8B and Gemma 2 9B, with steering efficacy scoring up to 19.1% higher than the runner-up. Our results support the conclusion that the query and value spaces are powerful building blocks for steering vector methods.

DISCO: Disentangled Communication Steering for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理