Spherical Steering: Geometry-Aware Activation Rotation for Language Models

作者: Zejia You, Chunyuan Deng, Hanjie Chen

分类: cs.LG, cs.CL

发布日期: 2026-02-09

备注: The code is at: https://github.com/chili-lab/Spherical-Steering

💡 一句话要点

提出Spherical Steering，通过几何感知激活旋转提升语言模型推理时控制能力。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting)

关键词: 语言模型控制 推理时控制 激活旋转 几何感知 开放域生成

📋 核心要点

现有推理时控制方法依赖激活加法，改变隐藏层表示幅度，易导致表示崩溃和生成质量下降。
提出Spherical Steering，通过激活旋转而非平移，在引导激活的同时保持信号完整性。
实验表明，该方法在多个基准测试中显著优于加法基线，并保持了模型开放式生成能力。

📝 摘要（中文）

推理时控制已成为一种有前景的范式，用于在不重新训练的情况下控制语言模型（LMs）。然而，标准方法通常依赖于激活加法，这种几何操作不可避免地会改变隐藏表示的幅度。这引发了对表示崩溃和开放式生成能力下降的担忧。本文探索了Spherical Steering，这是一种无需训练的原语，通过激活旋转来解决这种权衡。我们的方法不是用固定向量移动激活，而是沿着测地线将它们旋转到目标方向，引导激活朝向目标概念，同时保持信号的完整性。为了进一步增强适应性，我们加入了一个置信度门，根据输入不确定性动态地调节steering强度。在多个选择题基准上的大量实验表明，Spherical Steering显著优于基于加法的基线（在TruthfulQA、COPA和Storycloze上分别提高了+10%），同时保持了模型的一般开放式生成质量。这项工作突出了几何一致性的价值，表明保持范数的旋转是精确推理时控制的稳健而有效的原语。

🔬 方法详解

问题定义：现有基于激活加法的推理时控制方法，通过直接对隐藏层激活向量进行平移来实现对语言模型的控制。这种方法的痛点在于，激活向量的幅度会被改变，可能导致表示坍塌，影响模型的生成能力，尤其是在开放域生成任务中。

核心思路：论文的核心思路是使用激活旋转来替代激活加法。具体来说，不是直接平移激活向量，而是将其沿着一个测地线（球面上两点间的最短路径）旋转到目标方向。这样既能引导激活向量朝向目标概念，又能保持激活向量的幅度不变，从而避免表示坍塌。

技术框架：整体框架包括以下步骤：1) 获取模型的隐藏层激活向量；2) 确定目标方向（通常通过prompt或其他方式获得）；3) 使用Spherical Steering算法，将激活向量沿着测地线旋转到目标方向；4) 将旋转后的激活向量输入到模型的后续层进行推理。其中，置信度门用于根据输入的不确定性动态调整旋转强度。

关键创新：最重要的技术创新点在于使用激活旋转来替代激活加法。与激活加法相比，激活旋转能够保持激活向量的幅度不变，从而避免表示坍塌，提高模型的生成能力。此外，置信度门的设计也增强了方法的适应性，使其能够根据输入的不确定性动态调整控制强度。

关键设计：Spherical Steering的关键设计包括：1) 使用测地线旋转，保证旋转路径最短；2) 设计置信度门，根据输入不确定性动态调整旋转强度。置信度门通常基于模型对输入的预测概率或熵来计算。具体的旋转角度和置信度门参数需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Spherical Steering在TruthfulQA、COPA和Storycloze等多个选择题基准测试中显著优于基于加法的基线，性能提升高达+10%。同时，该方法在保持模型开放式生成质量方面也表现出色，验证了其在精确控制和生成能力之间的平衡。

🎯 应用场景

该研究成果可应用于各种需要对语言模型进行精确控制的场景，例如：内容风格迁移、情感控制、事实性引导等。通过Spherical Steering，可以在不重新训练模型的情况下，灵活地调整模型的行为，使其更好地满足特定应用的需求。该方法尤其适用于开放域生成任务，可以有效避免表示坍塌，提高生成质量。

📄 摘要（原文）

Inference-time steering has emerged as a promising paradigm for controlling language models (LMs) without the cost of retraining. However, standard approaches typically rely on activation addition, a geometric operation that inevitably alters the magnitude of hidden representations. This raises concerns about representation collapse and degradation of open-ended generation capabilities. In this work, we explore Spherical Steering, a training-free primitive that resolves this trade-off through activation rotation. Rather than shifting activations with a fixed vector, our method rotates them along a geodesic toward a target direction, guiding the activation toward the target concept while preserving the integrity of the signal. To further enhance adaptivity, we incorporate a confidence gate that dynamically modulates steering strength based on input uncertainty. Extensive experiments across multiple-choice benchmarks demonstrate that Spherical Steering significantly outperforms addition-based baselines (notably by +10% on TruthfulQA, COPA, and Storycloze), while simultaneously maintaining the model's general open-ended generation quality. This work highlights the value of geometric consistency, suggesting that norm-preserving rotation is a robust and effective primitive for precise inference-time control.

Spherical Steering: Geometry-Aware Activation Rotation for Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理