Angular Steering: Behavior Control via Rotation in Activation Space
作者: Hieu M. Vu, Tan M. Nguyen
分类: cs.LG, cs.AI
发布日期: 2025-10-30
备注: NeurIPS 2025 (Spotlight)
🔗 代码/项目: GITHUB
💡 一句话要点
提出Angular Steering,通过激活空间旋转实现大语言模型行为控制。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 行为控制 激活空间 几何旋转 steering方法
📋 核心要点
- 现有steering方法依赖二维子空间,易受参数影响,且可能意外影响其他特征。
- Angular Steering通过在固定二维子空间内旋转激活,实现对行为的细粒度控制。
- 实验表明,Angular Steering在保持通用语言建模性能的同时,实现了稳健的行为控制。
📝 摘要(中文)
在保证大语言模型通用能力的同时,控制其特定行为是安全可靠人工智能部署的核心挑战。现有的steering方法,如向量加法和方向消融,受限于激活和特征方向定义的二维子空间,对参数选择敏感,并可能因激活空间中意外的交互而影响不相关的特征。我们提出Angular Steering,一种新颖且灵活的行为调节方法,通过在固定的二维子空间内旋转激活来实现。通过将steering公式化为朝向或远离目标行为方向的几何旋转,Angular Steering提供了对拒绝和顺从等行为的连续、细粒度控制。我们使用拒绝steering和情感steering作为用例来展示该方法。此外,我们提出了自适应Angular Steering,一种选择性变体,仅旋转与目标特征对齐的激活,从而进一步增强稳定性和一致性。Angular Steering在统一的几何旋转框架下推广了现有的加法和正交化技术,简化了参数选择,并在更广泛的调整范围内保持模型稳定性。跨多个模型系列和规模的实验表明,与先前的方法相比,Angular Steering实现了稳健的行为控制,同时保持了通用语言建模性能,突显了其灵活性、泛化性和鲁棒性。
🔬 方法详解
问题定义:现有的大语言模型行为控制方法,如向量加法和方向消融,主要依赖于在激活空间中进行向量操作。这些方法通常受限于由激活向量和特征方向所定义的二维子空间,导致对参数选择非常敏感。此外,由于激活空间中特征之间可能存在复杂的相互作用,这些方法可能会意外地影响到与目标行为无关的其他特征,从而降低模型的整体性能和稳定性。
核心思路:Angular Steering的核心思想是将行为控制问题转化为在激活空间中进行几何旋转的问题。具体来说,该方法在预先定义的二维子空间内旋转激活向量,使其朝向或远离代表目标行为的方向。这种旋转操作能够实现对模型行为的连续、细粒度控制,同时避免了传统方法中因直接添加或删除向量而可能引入的副作用。
技术框架:Angular Steering方法主要包含以下几个关键步骤:1) 确定目标行为方向:首先,需要确定在激活空间中代表目标行为的方向向量。这可以通过分析模型在执行目标行为时的激活模式来获得。2) 构建二维子空间:然后,基于当前激活向量和目标行为方向向量,构建一个二维子空间。3) 执行旋转操作:最后,在该二维子空间内,对激活向量进行旋转,使其朝向或远离目标行为方向。旋转角度的大小决定了行为控制的强度。此外,论文还提出了Adaptive Angular Steering,它只旋转与目标特征对齐的激活,进一步提升了稳定性和一致性。
关键创新:Angular Steering最重要的创新在于其将行为控制问题转化为几何旋转问题。这种方法不仅提供了对行为的连续控制,而且还能够避免传统方法中因直接操作激活向量而可能引入的副作用。此外,Angular Steering还提供了一个统一的框架,可以推广现有的加法和正交化技术。
关键设计:Angular Steering的关键设计包括:1) 旋转角度的选择:旋转角度的大小直接影响行为控制的强度,需要根据具体应用场景进行调整。2) 二维子空间的构建:二维子空间的构建方式会影响旋转操作的效果,需要仔细选择。3) Adaptive Angular Steering的选择策略:Adaptive Angular Steering需要选择合适的策略来确定哪些激活需要旋转,哪些激活不需要旋转。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Angular Steering在多个模型系列和规模上都表现出良好的性能。与传统的向量加法方法相比,Angular Steering能够更稳定地控制模型的行为,同时保持其通用语言建模能力。例如,在拒绝steering任务中,Angular Steering能够有效地提升模型的拒绝率,而不会显著降低其生成文本的质量。Adaptive Angular Steering进一步提升了模型的稳定性和一致性。
🎯 应用场景
Angular Steering可应用于各种需要对大语言模型行为进行精确控制的场景,例如:安全AI、内容生成、对话系统等。通过控制模型的拒绝行为,可以避免生成有害或不当内容。通过控制模型的情感表达,可以提升对话系统的用户体验。该方法还可用于个性化模型,使其能够根据用户的偏好调整行为。
📄 摘要(原文)
Controlling specific behaviors in large language models while preserving their general capabilities is a central challenge for safe and reliable artificial intelligence deployment. Current steering methods, such as vector addition and directional ablation, are constrained within a two-dimensional subspace defined by the activation and feature direction, making them sensitive to chosen parameters and potentially affecting unrelated features due to unintended interactions in activation space. We introduce Angular Steering, a novel and flexible method for behavior modulation that operates by rotating activations within a fixed two-dimensional subspace. By formulating steering as a geometric rotation toward or away from a target behavior direction, Angular Steering provides continuous, fine-grained control over behaviors such as refusal and compliance. We demonstrate this method using refusal steering emotion steering as use cases. Additionally, we propose Adaptive Angular Steering, a selective variant that rotates only activations aligned with the target feature, further enhancing stability and coherence. Angular Steering generalizes existing addition and orthogonalization techniques under a unified geometric rotation framework, simplifying parameter selection and maintaining model stability across a broader range of adjustments. Experiments across multiple model families and sizes show that Angular Steering achieves robust behavioral control while maintaining general language modeling performance, underscoring its flexibility, generalization, and robustness compared to prior approaches. Code and artifacts are available at https://github.com/lone17/angular-steering/.