VSPO: Vector-Steered Policy Optimization for Behavioral Control

📄 arXiv: 2605.15604v1 📥 PDF

作者: Xuechen Zhang, Zijian Huang, Kai Yang, Weijia Zhang, Jiasi Chen, Samet Oymak

分类: cs.LG, cs.CL

发布日期: 2026-05-15


💡 一句话要点

提出VSPO:通过向量引导策略优化实现语言模型的行为控制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 行为控制 策略优化 语言模型 稀疏奖励 自蒸馏 引导向量 多目标优化

📋 核心要点

  1. 现有语言模型难以兼顾准确性与行为偏好,如冗长性、专业性等,且目标行为稀少导致奖励稀疏。
  2. VSPO通过引入引导向量控制生成文本的行为强度,类似一种on-policy的自蒸馏,提升行为多样性。
  3. 实验表明,VSPO在MATH和MMLU-Pro等基准测试中,能有效控制目标行为,同时保持或提升任务准确性。

📝 摘要(中文)

现代语言模型通常需要在优化主要准确性目标的同时,兼顾次要的行为偏好,例如回复的冗长程度、友善程度或技术专业水平。然而,基础模型可能很少或根本不表现出期望的行为,从而导致稀疏的行为奖励瓶颈。为了解决这种多目标问题,我们引入了向量引导策略优化(VSPO),它采用与目标行为相关的引导向量来控制生成 rollouts 的行为强度。VSPO 通过修改 GRPO 来采样具有不同引导强度的 rollouts 实现。这个过程可以解释为一种 on-policy 的潜在自蒸馏程序,其中模型内化其引导向量。通过改变引导强度,VSPO 对稀有行为进行过采样并丰富 rollout 多样性,从而缓解稀疏奖励问题并加速策略优化。通过全面的理论和实验,我们证明 VSPO 相比于传统的奖励塑造和其他替代方法具有更有利的特性。具体而言,在 bandit 抽象下,当引导诱导分布与目标行为充分对齐时,VSPO 在理论上实现了比奖励塑造的 GRPO 更好的迭代复杂度。我们在多个推理基准(包括 MATH 和 MMLU-Pro)上评估了 VSPO 的四种目标行为:解释专业性、置信度表达、对误导性上下文的鲁棒性和回复冗长性。结果表明,与奖励塑造、教师轨迹蒸馏和基于指导的基线相比,VSPO 在保持或提高任务准确性的同时,始终如一地改进了对目标行为的控制。

🔬 方法详解

问题定义:论文旨在解决语言模型在优化主要任务(如准确性)的同时,难以有效控制次要行为偏好(如回复的冗长程度、专业性等)的问题。现有方法,如奖励塑造,在目标行为稀少时面临奖励稀疏的挑战,导致训练效率低下。

核心思路:论文的核心思路是引入一个与目标行为相关的“引导向量”,通过调整该向量的强度,控制模型生成文本的行为表现。这种方法可以看作是一种 on-policy 的自蒸馏,模型通过学习不同强度的引导向量,内化目标行为的特征。

技术框架:VSPO 的整体框架基于 GRPO(Generalized Policy Optimization)。主要步骤包括:1) 使用语言模型生成 rollouts;2) 使用引导向量调整 rollouts 的行为强度;3) 计算奖励,包括任务奖励和行为奖励;4) 使用策略优化算法更新模型参数。关键在于引导向量的引入和不同引导强度下的 rollout 采样。

关键创新:VSPO 的关键创新在于使用引导向量来控制行为强度,从而解决稀疏奖励问题。与传统的奖励塑造方法相比,VSPO 通过改变引导强度,对稀有行为进行过采样,从而丰富了 rollout 的多样性,加速了策略优化。此外,VSPO 可以被解释为一种 on-policy 的自蒸馏,模型通过学习不同强度的引导向量,更好地理解和内化目标行为。

关键设计:VSPO 的关键设计包括:1) 引导向量的表示方式(例如,可以使用 embedding 向量);2) 引导向量强度调整的方式(例如,可以通过缩放或加权);3) 奖励函数的设计,需要平衡任务奖励和行为奖励;4) 策略优化算法的选择,可以使用 TRPO、PPO 等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VSPO 在 MATH 和 MMLU-Pro 等基准测试中,能够有效控制语言模型的行为,例如解释专业性、置信度表达、对误导性上下文的鲁棒性和回复冗长性。与奖励塑造、教师轨迹蒸馏和基于指导的基线相比,VSPO 在保持或提高任务准确性的同时,显著提升了对目标行为的控制效果。具体提升幅度未知,但论文强调了VSPO的一致性改进。

🎯 应用场景

VSPO 可应用于各种需要控制语言模型行为的场景,例如:1) 开发更具个性化和适应性的聊天机器人;2) 生成符合特定风格或语气的文本内容;3) 提高语言模型在特定领域的专业性;4) 增强语言模型对对抗性输入的鲁棒性。该研究有助于提升语言模型的可控性和实用性,使其更好地服务于人类需求。

📄 摘要(原文)

Modern language models often need to optimize a primary accuracy objective while also accommodating secondary behavioral preferences, such as verbosity, agreeableness, or the level of technical expertise in its response. In practice, a base model may exhibit a desired behavior very rarely or not at all. Thus, endowing the model with a target behavior creates a sparse behavioral reward bottleneck. To address such multi-objective problems, we introduce Vector-Steered Policy Optimization (VSPO) which employs a steering vector associated with the target behavior to control the behavior intensity of the generated rollouts. VSPO is obtained by modifying GRPO to sample rollouts with varying steering intensities. This process can be interpreted as an on-policy latent self-distillation procedure where the model internalizes its steering vector. By varying steering intensities, VSPO upsamples rare behaviors and enriches rollout diversity, which alleviates the sparse reward issue and provably accelerates the policy optimization. Through comprehensive theory and experiments, we establish that VSPO has favorable properties compared to vanilla reward shaping and other alternative approaches. Specifically, under a bandit abstraction, VSPO provably achieves better iteration complexity than reward-shaped GRPO when the steering-induced distributions are sufficiently aligned with the target behavior. We evaluate VSPO across multiple reasoning benchmarks, including MATH and MMLU-Pro, for four target behaviors: explanation expertise, confidence expression, robustness to misleading context, and response verbosity. Our results show that VSPO consistently improves the control along target behavior while maintaining or improving task accuracy compared with reward shaping, teacher-trace distillation, and guidance-based baselines.