Towards Steering without Sacrifice: Principled Training of Steering Vectors for Prompt-only Interventions

📄 arXiv: 2605.05983v1 📥 PDF

作者: Yuntai Bao, Qinfeng Li, Xinyan Yu, Xuhong Zhang, Ge Su, Wenqi Zhang, Liu Yan, Haiqin Weng, Jianwei Yin

分类: cs.LG

发布日期: 2026-05-07

备注: 63 pages, 50 figures; accepted by ICML 2026


💡 一句话要点

提出Prompt-only SV,通过联合训练steering factor和方向,在不牺牲生成质量的前提下引导LLM行为。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: steering vector 大语言模型 prompt工程 模型引导 对抗鲁棒性

📋 核心要点

  1. 现有steering vector微调方法需要在引导效果和生成质量之间进行权衡,且依赖于人工选择steering factors。
  2. 论文提出联合训练steering factors和方向,避免了人工选择,并引入Prompt-only SV,仅干预prompt tokens。
  3. 实验结果表明,Prompt-only SV在AxBench上优于传统方法,并在模型通用性和对抗鲁棒性之间取得了更好的平衡。

📝 摘要(中文)

本文提出了一种新的steering vector (SV)训练方法,旨在解决现有微调SV方法的两个局限性。首先,现有方法需要针对每个SV仔细选择steering factors,以平衡推理时的引导效果和生成质量。其次,它们作为全序列SV (FSSV) 运行,由于对模型生成过程的过度干预,无论因子选择如何,都可能牺牲生成质量。为了解决第一个局限性,我们提出了steering factors和方向的联合训练,从而不再需要事后因子选择。利用神经网络缩放理论,我们发现适度大的初始化大小和steering factors的学习率对于联合训练的稳定性和效率至关重要。为了解决第二个局限性,我们从表征微调中获得灵感,并引入了Prompt-only SV (PrOSV),这是一种仅干预少数prompt tokens的SV。我们的实验结果表明,在使用我们的联合训练方案时,PrOSV在AxBench上优于传统的FSSV。我们还发现,PrOSV在通用模型效用和对抗鲁棒性之间实现了比FSSV更好的权衡。

🔬 方法详解

问题定义:现有steering vector方法,特别是全序列steering vector (FSSV),存在两个主要问题。一是需要针对每个steering vector手动调整steering factor,以平衡引导效果和生成质量。二是FSSV对整个序列进行干预,容易过度干预模型的生成过程,导致生成质量下降。

核心思路:论文的核心思路是通过联合训练steering factor和steering direction,自动学习合适的steering factor,避免手动调整。同时,引入Prompt-only SV (PrOSV) 的概念,限制steering vector的作用范围,只在prompt tokens上进行干预,从而减少对模型生成过程的干扰。

技术框架:该方法包含两个主要组成部分:一是steering factor和steering direction的联合训练框架,二是Prompt-only SV (PrOSV) 的设计。联合训练框架通过优化一个损失函数,同时学习steering factor和steering direction。PrOSV通过mask机制,只允许steering vector作用于prompt tokens。

关键创新:论文的关键创新在于提出了steering factor和steering direction的联合训练方法,以及Prompt-only SV (PrOSV) 的概念。联合训练方法避免了手动调整steering factor的繁琐过程,PrOSV则有效降低了steering vector对模型生成过程的干扰。

关键设计:在联合训练中,论文发现适度大的初始化大小和学习率对于steering factors的稳定性和效率至关重要,这基于神经网络缩放理论。PrOSV的关键设计在于使用mask矩阵,只允许steering vector影响prompt tokens的激活值。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的Prompt-only SV (PrOSV) 在AxBench基准测试上优于传统的全序列steering vector (FSSV)。此外,PrOSV在通用模型效用和对抗鲁棒性之间取得了更好的平衡,表明其在保证模型性能的同时,也提高了模型的安全性。

🎯 应用场景

该研究成果可应用于各种需要引导大型语言模型行为的场景,例如内容生成、对话系统、代码生成等。通过Prompt-only SV,可以在保证生成质量的前提下,更有效地控制模型的输出,提高模型的可用性和安全性。该方法还有助于提升模型在对抗环境下的鲁棒性。

📄 摘要(原文)

Recently, steering vectors (SVs) have emerged as an effective and lightweight approach to steer behaviors of large language models (LLMs), among which fine-tuned SVs are more effective than optimization-free ones. However, current approaches to fine-tuned SVs suffer from two limitations. First, they require careful selection of steering factors on a per-SV basis to balance steering effectiveness and generation quality at inference time. Second, they operate as full-sequence SVs (FSSVs), which can sacrifice generation quality regardless of factor selection due to excessive intervention on the model generation process. To address the first limitation, we propose joint training of steering factors and directions, such that post-hoc factor selection is no longer required. Using neural network scaling theory, we find that moderately large initialization sizes and learning rates for steering factors are essential for stability and efficiency of joint training. To tackle the second limitation, we draw inspiration from representation fine-tuning and introduce Prompt-only SV (PrOSV), an SV that intervenes only on a few prompt tokens. Our empirical results show that PrOSV outperforms traditional FSSVs on AxBench when using our joint training scheme. We also find that PrOSV achieves a better tradeoff between general model utility and adversarial robustness than FSSV.