DISCO: Disentangled Communication Steering for Large Language Models
作者: Max Torop, Aria Masoomi, Masih Eskandar, Jennifer Dy
分类: cs.LG
发布日期: 2025-09-20
💡 一句话要点
DISCO:面向大语言模型的解耦通信引导,提升控制粒度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 引导向量 注意力机制 解耦通信 推理优化
📋 核心要点
- 现有方法通过在残差流或注意力头中注入引导向量来控制LLM输出,但控制粒度有限。
- DISCO直接在注意力头的查询和值空间注入引导向量,实现更精细的概念控制。
- 实验表明,DISCO在多个数据集上显著优于现有引导向量方法,提升高达19.1%。
📝 摘要(中文)
本文提出了一种名为解耦通信(DISCO)引导的新方法,用于在大语言模型推理时引导模型输出。与以往将引导向量注入到残差流或注意力头表示中的方法不同,DISCO直接将引导向量注入到注意力头内的查询和值表示空间中。研究表明,这些空间比注意力头输出更能线性区分概念,这正是使用引导向量的关键动机。论文分析了DISCO对注意力头输出的影响,揭示了DISCO解耦了一种强大的基线方法,即引导注意力输入,该方法以刚性方式隐式地修改查询和值。相比之下,DISCO直接调制这些组件,从而实现更精细的控制。在LLaMA 3.1 8B和Gemma 2 9B上的多个数据集上,DISCO优于多个引导向量基线,引导效果评分比第二名高出高达19.1%。结果表明,查询和值空间是引导向量方法的强大构建块。
🔬 方法详解
问题定义:现有的大语言模型引导方法,例如通过在残差流或注意力头输出中添加引导向量,存在控制粒度不足的问题。这些方法通常以较为僵化的方式影响模型的行为,难以实现对特定概念的精细控制。现有方法对注意力机制内部的查询(Query)和值(Value)空间的利用不足,而这些空间可能包含更丰富的可引导信息。
核心思路:DISCO的核心思路是将引导向量直接注入到注意力头内部的查询(Query)和值(Value)表示空间中。作者认为,相比于注意力头的输出,查询和值空间更能线性区分不同的概念,因此直接在这些空间进行引导可以实现更精细的控制。通过解耦查询和值的引导,DISCO能够克服现有方法的局限性,实现更灵活和高效的引导。
技术框架:DISCO方法主要包含以下几个步骤:1) 选择需要引导的注意力头;2) 获取该注意力头的查询(Query)和值(Value)表示;3) 将引导向量分别注入到查询和值空间中;4) 使用修改后的查询和值计算注意力权重和输出。整个过程在推理阶段进行,无需重新训练模型。
关键创新:DISCO的关键创新在于直接在注意力头的查询和值空间中注入引导向量。与以往方法相比,这种方法能够更精细地控制模型的行为,实现对特定概念的更有效引导。此外,DISCO还解耦了查询和值的引导,允许对这两个空间进行独立控制,进一步提升了引导的灵活性。
关键设计:DISCO的关键设计包括:1) 引导向量的获取方式,可以通过训练得到,也可以通过其他方式获取;2) 引导向量的注入方式,可以直接相加,也可以通过其他方式进行融合;3) 对注入后的查询和值进行归一化处理,以保证模型的稳定性。论文中没有明确说明具体的损失函数或网络结构,但强调了在查询和值空间进行引导的重要性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DISCO在LLaMA 3.1 8B和Gemma 2 9B模型上,多个数据集上的引导效果显著优于现有方法,引导效果评分比第二名高出高达19.1%。这表明DISCO能够更有效地控制大语言模型的行为,实现更精细的概念引导。
🎯 应用场景
DISCO方法具有广泛的应用前景,例如可以用于控制大语言模型的生成风格、提高生成内容的安全性、以及实现对特定任务的优化。该方法可以应用于聊天机器人、文本生成、代码生成等多个领域,具有重要的实际价值。未来,可以进一步研究如何自动选择需要引导的注意力头,以及如何设计更有效的引导向量。
📄 摘要(原文)
A variety of recent methods guide large language model outputs via the inference-time addition of steering vectors to residual-stream or attention-head representations. In contrast, we propose to inject steering vectors directly into the query and value representation spaces within attention heads. We provide evidence that a greater portion of these spaces exhibit high linear discriminability of concepts --a key property motivating the use of steering vectors-- than attention head outputs. We analytically characterize the effect of our method, which we term DISentangled COmmunication (DISCO) Steering, on attention head outputs. Our analysis reveals that DISCO disentangles a strong but underutilized baseline, steering attention inputs, which implicitly modifies queries and values in a rigid manner. In contrast, DISCO's direct modulation of these components enables more granular control. We find that DISCO achieves superior performance over a number of steering vector baselines across multiple datasets on LLaMA 3.1 8B and Gemma 2 9B, with steering efficacy scoring up to 19.1% higher than the runner-up. Our results support the conclusion that the query and value spaces are powerful building blocks for steering vector methods.