Curveball Steering: The Right Direction To Steer Isn't Always Linear

📄 arXiv: 2603.09313v1 📥 PDF

作者: Shivam Raval, Hae Jin Song, Linlin Wu, Abir Harrasse, Jeff Phillips, Amirali Abdullah

分类: cs.AI

发布日期: 2026-03-10


💡 一句话要点

提出Curveball Steering,通过非线性干预提升大语言模型行为控制效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 激活调控 非线性干预 几何学习 核PCA

📋 核心要点

  1. 现有激活调控方法依赖线性表征假设,但实际应用中线性干预表现不一致。
  2. 提出Curveball steering,利用多项式核PCA进行非线性干预,尊重激活几何。
  3. 实验表明,Curveball steering在几何扭曲明显时优于线性PCA方法,提升控制效果。

📝 摘要(中文)

激活调控是一种通过干预内部表征来控制大型语言模型(LLM)行为的常用方法。现有方法主要依赖于线性表征假设,即假设行为属性可以通过全局线性方向进行操作。然而,在实践中,这种线性干预常常表现出不一致性。本文通过分析LLM激活空间的内在几何结构来质疑这一假设。通过测量测地距离与欧几里得距离的比率来评估几何扭曲,我们观察到显著且概念相关的扭曲,表明激活空间不能很好地用全局线性几何来近似。受此启发,我们提出了“Curveball steering”,一种基于多项式核PCA的非线性调控方法,它在特征空间中执行干预,更好地尊重学习到的激活几何。Curveball steering始终优于基于线性PCA的调控方法,尤其是在表现出强烈几何扭曲的情况下,这表明几何感知的非线性调控为全局线性干预提供了一种有原则的替代方案。

🔬 方法详解

问题定义:现有激活调控方法依赖于线性表征假设,即认为可以通过在激活空间中找到一个线性方向来控制LLM的行为。然而,实际中这种线性干预常常表现出不一致性,效果不稳定。论文旨在解决线性激活调控的局限性,探索更有效的非线性调控方法。

核心思路:论文的核心思路是认为LLM的激活空间具有复杂的非线性几何结构,简单的线性干预无法充分利用这些信息。因此,需要一种能够感知激活空间几何结构的非线性调控方法。Curveball steering通过学习激活空间的非线性流形结构,并在该流形上进行干预,从而更有效地控制LLM的行为。

技术框架:Curveball steering主要包含以下几个步骤:1) 收集LLM在不同输入下的激活数据;2) 使用多项式核PCA对激活数据进行降维和非线性特征提取,得到一个低维的特征空间,该空间更好地反映了激活空间的内在几何结构;3) 在该特征空间中,通过学习一个调控向量来控制LLM的行为;4) 将调控向量映射回原始激活空间,并对LLM的激活进行干预。

关键创新:最重要的技术创新点在于使用多项式核PCA进行非线性特征提取,从而能够更好地捕捉激活空间的非线性几何结构。与传统的线性PCA相比,多项式核PCA能够学习到更复杂的非线性关系,从而更准确地表示激活空间的内在结构。这使得Curveball steering能够进行更有效的非线性干预。

关键设计:Curveball steering的关键设计在于选择合适的多项式核函数和核函数的参数。论文中使用了多项式核函数,其参数包括多项式的阶数和系数。这些参数的选择会影响到非线性特征提取的效果,需要根据具体的任务进行调整。此外,调控向量的学习也需要仔细设计,以确保能够有效地控制LLM的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Curveball steering在多个任务上都优于基于线性PCA的调控方法。尤其是在激活空间几何扭曲程度较高的任务中,Curveball steering的性能提升更为显著。这表明非线性调控方法能够更好地利用激活空间的几何信息,从而实现更有效的行为控制。具体提升幅度未知,原文未提供具体数值。

🎯 应用场景

Curveball steering可应用于各种需要精确控制大型语言模型行为的场景,例如:内容生成、对话系统、代码生成等。通过更精细地控制LLM的输出,可以提高生成内容的质量、安全性和可控性,减少有害或不期望的输出。该研究为开发更可靠、更可控的LLM应用奠定了基础。

📄 摘要(原文)

Activation steering is a widely used approach for controlling large language model (LLM) behavior by intervening on internal representations. Existing methods largely rely on the Linear Representation Hypothesis, assuming behavioral attributes can be manipulated using global linear directions. In practice, however, such linear interventions often behave inconsistently. We question this assumption by analyzing the intrinsic geometry of LLM activation spaces. Measuring geometric distortion via the ratio of geodesic to Euclidean distances, we observe substantial and concept-dependent distortions, indicating that activation spaces are not well-approximated by a globally linear geometry. Motivated by this, we propose "Curveball steering", a nonlinear steering method based on polynomial kernel PCA that performs interventions in a feature space, better respecting the learned activation geometry. Curveball steering consistently outperforms linear PCA-based steering, particularly in regimes exhibiting strong geometric distortion, suggesting that geometry-aware, nonlinear steering provides a principled alternative to global, linear interventions.