UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering
作者: Yingdong Shi, Ruiming Zhang, Changming Li, Zhiyu Yang, Kaixing Zhang, Jingyi Yu, Kan Ren
分类: cs.CL
发布日期: 2026-05-28
备注: 16 pages,4 figures
💡 一句话要点
UniSteer:提出文本引导的激活空间流匹配方法,实现通用LLM行为控制。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型控制 激活空间干预 流匹配 文本引导 行为控制
📋 核心要点
- 现有激活控制方法依赖固定方向或特定任务模块,难以适应细粒度概念和组合约束。
- UniSteer学习激活空间中的通用条件速度场,通过文本引导的流匹配实现灵活控制。
- 实验表明,UniSteer在多种任务上实现了统一接口,包括行为控制和激活空间分类。
📝 摘要(中文)
基于激活的控制通过干预大型语言模型(LLM)在推理过程中的内部表示来引导它们,并且已经成为控制诸如角色和风格等行为的有效范例。然而,现有方法通常依赖于固定的引导方向或特定于任务的干预模块,使得它们难以适应细粒度的概念和组合约束。我们提出了UniSteer,一种文本引导的激活流匹配模型,该模型从自然语言条件中学习残差流激活上的条件分布。UniSteer不是为每个目标行为拟合单独的干预,而是在激活空间中学习通用的条件速度场。在推理时,UniSteer通过将源激活部分地传输到潜在状态,并在目标文本条件下重新生成它,然后再将其注入到冻结的LLM中来执行流反演。相同的条件模型通过选择具有最低重建能量的文本标签来支持激活空间分类。在三个目标LLM上的实验表明,UniSteer在行为控制、真值引导、细粒度概念引导、多约束指令跟随和激活空间分类方面提供了一个统一的接口。
🔬 方法详解
问题定义:现有基于激活的LLM控制方法,如风格迁移或角色扮演,通常需要针对每个特定行为训练单独的干预模块或依赖固定的引导方向。这导致了两个主要问题:一是泛化能力差,难以处理细粒度的概念和组合约束;二是缺乏统一的接口,不同任务需要不同的干预策略。
核心思路:UniSteer的核心思想是学习一个通用的条件速度场,该速度场能够根据给定的文本条件,将LLM的激活状态引导到期望的状态。通过在激活空间中进行流匹配,UniSteer可以实现对LLM行为的灵活控制,而无需为每个目标行为训练单独的干预模块。这种方法的核心在于将文本信息融入到激活空间的变换中,从而实现细粒度的控制。
技术框架:UniSteer的整体框架包括以下几个主要步骤:1) 数据收集:收集包含文本条件和对应LLM激活状态的数据集。2) 条件速度场学习:使用流匹配模型学习一个条件速度场,该速度场能够根据给定的文本条件,预测激活状态的变化方向和幅度。3) 流反演:在推理时,首先将源激活状态部分地传输到潜在空间,然后根据目标文本条件,在潜在空间中重新生成激活状态。4) 激活注入:将重新生成的激活状态注入回LLM,从而实现对LLM行为的控制。
关键创新:UniSteer的关键创新在于:1) 通用条件速度场:通过学习一个通用的条件速度场,UniSteer避免了为每个目标行为训练单独的干预模块,从而提高了泛化能力。2) 文本引导的流匹配:通过将文本信息融入到激活空间的变换中,UniSteer实现了对LLM行为的细粒度控制。3) 流反演:通过流反演,UniSteer可以在潜在空间中对激活状态进行操作,从而避免了直接干预LLM的内部表示,提高了稳定性和可控性。
关键设计:UniSteer的关键设计包括:1) 流匹配模型:使用连续归一化流(CNF)作为流匹配模型,以学习复杂的条件速度场。2) 损失函数:使用流匹配损失函数来训练条件速度场,该损失函数旨在最小化预测的速度场与真实速度场之间的差异。3) 文本编码器:使用预训练的文本编码器(如BERT)来将文本条件编码为向量表示,并将其作为条件速度场的输入。4) 激活注入位置:选择LLM的特定层作为激活注入的位置,以实现对特定行为的控制。
🖼️ 关键图片
📊 实验亮点
UniSteer在三个目标LLM上进行了实验,结果表明,UniSteer在行为控制、真值引导、细粒度概念引导、多约束指令跟随和激活空间分类方面都取得了显著的性能。例如,在真值引导任务中,UniSteer能够有效地提高LLM的回答准确率,同时保持其生成能力。在细粒度概念引导任务中,UniSteer能够根据用户指定的概念,精确地控制LLM的输出。
🎯 应用场景
UniSteer具有广泛的应用前景,例如个性化对话生成、内容创作、安全策略控制等。它可以用于构建更加智能和可控的LLM应用,例如根据用户指定的风格或角色生成对话,或者根据特定的安全策略过滤LLM的输出。此外,UniSteer还可以用于LLM的调试和解释,通过分析激活空间的变化,可以更好地理解LLM的行为。
📄 摘要(原文)
Activation-based control steers large language models (LLMs) by intervening on their internal representations during inference, and has emerged as an effective paradigm for controlling behaviors such as persona and style. However, existing methods often rely on fixed steering directions or task-specific intervention modules, making them difficult to adapt to fine-grained concepts and compositional constraints. We propose UniSteer, a text-guided activation flow matching model that learns a conditional distribution over residual-stream activations from natural-language conditions. Instead of fitting a separate intervention for each target behavior, UniSteer learns a universal conditional velocity field in activation space. At inference time, UniSteer performs flow inversion by partially transporting a source activation toward a latent state and regenerating it under a target textual condition before injecting it back into the frozen LLM. The same conditional model supports activation-space classification by selecting the textual label with the lowest reconstruction energy. Experiments on three target LLMs show that UniSteer provides a unified interface across behavioral control, truthfulness steering, fine-grained concept steering, multi-constraint instruction following, and activation-space classification.