Spherical Steering: Geometry-Aware Activation Rotation for Language Models
作者: Zejia You, Chunyuan Deng, Hanjie Chen
分类: cs.LG, cs.CL
发布日期: 2026-02-09
备注: The code is at: https://github.com/chili-lab/Spherical-Steering
💡 一句话要点
提出Spherical Steering,通过几何感知激活旋转提升语言模型推理时控制能力。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 语言模型控制 推理时控制 激活旋转 几何感知 开放域生成
📋 核心要点
- 现有推理时控制方法依赖激活加法,改变隐藏层表示幅度,易导致表示崩溃和生成质量下降。
- 提出Spherical Steering,通过激活旋转而非平移,在引导激活的同时保持信号完整性。
- 实验表明,该方法在多个基准测试中显著优于加法基线,并保持了模型开放式生成能力。
📝 摘要(中文)
推理时控制已成为一种有前景的范式,用于在不重新训练的情况下控制语言模型(LMs)。然而,标准方法通常依赖于激活加法,这种几何操作不可避免地会改变隐藏表示的幅度。这引发了对表示崩溃和开放式生成能力下降的担忧。本文探索了Spherical Steering,这是一种无需训练的原语,通过激活旋转来解决这种权衡。我们的方法不是用固定向量移动激活,而是沿着测地线将它们旋转到目标方向,引导激活朝向目标概念,同时保持信号的完整性。为了进一步增强适应性,我们加入了一个置信度门,根据输入不确定性动态地调节steering强度。在多个选择题基准上的大量实验表明,Spherical Steering显著优于基于加法的基线(在TruthfulQA、COPA和Storycloze上分别提高了+10%),同时保持了模型的一般开放式生成质量。这项工作突出了几何一致性的价值,表明保持范数的旋转是精确推理时控制的稳健而有效的原语。
🔬 方法详解
问题定义:现有基于激活加法的推理时控制方法,通过直接对隐藏层激活向量进行平移来实现对语言模型的控制。这种方法的痛点在于,激活向量的幅度会被改变,可能导致表示坍塌,影响模型的生成能力,尤其是在开放域生成任务中。
核心思路:论文的核心思路是使用激活旋转来替代激活加法。具体来说,不是直接平移激活向量,而是将其沿着一个测地线(球面上两点间的最短路径)旋转到目标方向。这样既能引导激活向量朝向目标概念,又能保持激活向量的幅度不变,从而避免表示坍塌。
技术框架:整体框架包括以下步骤:1) 获取模型的隐藏层激活向量;2) 确定目标方向(通常通过prompt或其他方式获得);3) 使用Spherical Steering算法,将激活向量沿着测地线旋转到目标方向;4) 将旋转后的激活向量输入到模型的后续层进行推理。其中,置信度门用于根据输入的不确定性动态调整旋转强度。
关键创新:最重要的技术创新点在于使用激活旋转来替代激活加法。与激活加法相比,激活旋转能够保持激活向量的幅度不变,从而避免表示坍塌,提高模型的生成能力。此外,置信度门的设计也增强了方法的适应性,使其能够根据输入的不确定性动态调整控制强度。
关键设计:Spherical Steering的关键设计包括:1) 使用测地线旋转,保证旋转路径最短;2) 设计置信度门,根据输入不确定性动态调整旋转强度。置信度门通常基于模型对输入的预测概率或熵来计算。具体的旋转角度和置信度门参数需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Spherical Steering在TruthfulQA、COPA和Storycloze等多个选择题基准测试中显著优于基于加法的基线,性能提升高达+10%。同时,该方法在保持模型开放式生成质量方面也表现出色,验证了其在精确控制和生成能力之间的平衡。
🎯 应用场景
该研究成果可应用于各种需要对语言模型进行精确控制的场景,例如:内容风格迁移、情感控制、事实性引导等。通过Spherical Steering,可以在不重新训练模型的情况下,灵活地调整模型的行为,使其更好地满足特定应用的需求。该方法尤其适用于开放域生成任务,可以有效避免表示坍塌,提高生成质量。
📄 摘要(原文)
Inference-time steering has emerged as a promising paradigm for controlling language models (LMs) without the cost of retraining. However, standard approaches typically rely on activation addition, a geometric operation that inevitably alters the magnitude of hidden representations. This raises concerns about representation collapse and degradation of open-ended generation capabilities. In this work, we explore Spherical Steering, a training-free primitive that resolves this trade-off through activation rotation. Rather than shifting activations with a fixed vector, our method rotates them along a geodesic toward a target direction, guiding the activation toward the target concept while preserving the integrity of the signal. To further enhance adaptivity, we incorporate a confidence gate that dynamically modulates steering strength based on input uncertainty. Extensive experiments across multiple-choice benchmarks demonstrate that Spherical Steering significantly outperforms addition-based baselines (notably by +10% on TruthfulQA, COPA, and Storycloze), while simultaneously maintaining the model's general open-ended generation quality. This work highlights the value of geometric consistency, suggesting that norm-preserving rotation is a robust and effective primitive for precise inference-time control.