Compositional Steering of Large Language Models with Steering Tokens

📄 arXiv: 2601.05062v1 📥 PDF

作者: Gorjan Radevski, Kiril Gashteovski, Giwon Hong, Carolin Lawrence, Goran Glavaš

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-01-08


💡 一句话要点

提出基于Steering Tokens的组合式大语言模型控制方法,实现多重行为的精准引导。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型控制 组合式引导 Steering Tokens 自蒸馏 零样本学习

📋 核心要点

  1. 现有LLM控制方法主要关注单一行为引导,忽略了实际应用中多重行为组合引导的需求。
  2. 提出组合式steering tokens方法,通过自蒸馏将行为嵌入tokens空间,并学习行为间的组合关系。
  3. 实验证明该方法在多重行为控制上优于现有方法,且能与自然语言指令互补提升性能。

📝 摘要(中文)

本文提出了一种用于多重行为引导的组合式steering tokens方法,旨在解决大语言模型(LLM)在实际应用中需要同时满足多个期望行为的挑战。该方法首先通过自蒸馏将自然语言指令表达的个体行为嵌入到专用tokens中。与以往在激活空间操作的方法不同,本文的行为引导发生在输入tokens空间,从而实现更有效的零样本组合。然后,训练一个专用的组合token来学习行为对之间的组合关系,并证明其能够很好地泛化到未见过的组合,包括未见过的行为以及未见过的行为数量。在不同LLM架构上的实验表明,steering tokens相比于其他方法(指令、激活steering和LoRA合并)能够实现更优越的多重行为控制。此外,steering tokens可以与自然语言指令互补,结合使用可以获得进一步的性能提升。

🔬 方法详解

问题定义:现有的大语言模型控制方法主要集中于引导模型产生单一期望行为,但在实际应用中,往往需要模型同时满足多个期望行为,即进行组合式引导。例如,既要模型生成简洁的文本,又要保证文本的专业性。现有方法,如直接使用指令、激活空间引导或LoRA合并等,在处理这种多重行为组合时效果不佳,难以实现精准控制。

核心思路:本文的核心思路是将每个期望行为都编码成一个独立的steering token,然后通过训练一个组合token来学习这些行为之间的组合关系。通过在输入token空间进行操作,可以实现更灵活和有效的零样本组合,即模型可以泛化到未见过的行为组合,甚至未见过的行为数量。

技术框架:该方法主要包含以下几个阶段:1) 行为嵌入:使用自蒸馏技术,将每个自然语言指令描述的行为嵌入到一个专用的steering token中。具体来说,使用指令引导LLM生成文本,然后训练一个token来模仿该指令引导下的LLM的输出分布。2) 组合token训练:训练一个组合token,使其能够学习两个行为token之间的组合关系。训练数据由行为token对和相应的组合行为的文本组成。3) 组合引导:在推理时,将行为token和组合token添加到输入序列中,引导LLM生成满足多个期望行为的文本。

关键创新:该方法最重要的创新点在于将行为引导从激活空间转移到输入token空间。与直接修改模型内部的激活值相比,在输入token空间进行操作更加灵活,并且可以实现零样本组合。此外,通过训练组合token来显式地学习行为之间的关系,使得模型能够更好地泛化到未见过的行为组合。

关键设计:在行为嵌入阶段,使用自蒸馏损失函数来训练steering token,使其能够模仿指令引导下的LLM的输出分布。在组合token训练阶段,使用交叉熵损失函数来训练组合token,使其能够预测给定两个行为token时,LLM应该生成的文本。此外,论文还探索了不同的组合token的初始化方法,例如使用随机初始化或使用行为token的平均值进行初始化。

📊 实验亮点

实验结果表明,steering tokens在多重行为控制方面优于指令、激活steering和LoRA合并等方法。例如,在某些任务上,steering tokens可以将性能提升10%以上。此外,steering tokens还可以与自然语言指令互补,结合使用可以获得进一步的性能提升。更重要的是,该方法能够泛化到未见过的行为组合,包括未见过的行为和未见过的行为数量。

🎯 应用场景

该研究成果可广泛应用于需要精确控制LLM输出的应用场景,例如:内容创作(同时控制风格和主题)、智能客服(同时满足用户需求和企业规范)、代码生成(同时保证功能正确性和代码质量)等。通过组合不同的steering tokens,可以灵活地定制LLM的行为,从而更好地满足用户的需求。

📄 摘要(原文)

Deploying LLMs in real-world applications requires controllable output that satisfies multiple desiderata at the same time. While existing work extensively addresses LLM steering for a single behavior, \textit{compositional steering} -- i.e., steering LLMs simultaneously towards multiple behaviors -- remains an underexplored problem. In this work, we propose \emph{compositional steering tokens} for multi-behavior steering. We first embed individual behaviors, expressed as natural language instructions, into dedicated tokens via self-distillation. Contrary to most prior work, which operates in the activation space, our behavior steers live in the space of input tokens, enabling more effective zero-shot composition. We then train a dedicated \textit{composition token} on pairs of behaviors and show that it successfully captures the notion of composition: it generalizes well to \textit{unseen} compositions, including those with unseen behaviors as well as those with an unseen \textit{number} of behaviors. Our experiments across different LLM architectures show that steering tokens lead to superior multi-behavior control compared to competing approaches (instructions, activation steering, and LoRA merging). Moreover, we show that steering tokens complement natural language instructions, with their combination resulting in further gains.