The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement
作者: Xiaobo Wang, Tong Wu, Min Tang, Jiaqi Li, Qi Liu, Zilong Zheng
分类: cs.CL
发布日期: 2026-05-29
💡 一句话要点
提出SAVE框架,利用策略价值函数自监督提升奖励模型,解决奖励模型训练数据瓶颈问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 奖励模型 强化学习 自监督学习 在线学习 价值函数
📋 核心要点
- 现有奖励模型训练依赖昂贵的人工标注或判别模型,难以获取多样可靠的偏好数据,且无法适应策略的持续演进。
- SAVE框架利用在线策略的价值函数对响应进行评分,将奖励分级的响应转化为自监督信号,用于在线奖励模型训练。
- 实验表明,SAVE在多个基准测试和不同强化学习算法中均能有效提升奖励模型性能,并保持一致的改进。
📝 摘要(中文)
构建强大的语言模型对齐奖励模型(RM)受限于获取多样且可靠的偏好数据的成本和难度,这些数据通常来自人工标注或判别模型。当策略演进超出静态RM训练范围时,情况会变得更糟。因此,我们提出了SAVE(通过价值锚定的在线策略反馈进行自监督奖励模型改进),该框架通过使用在线策略的价值函数对在线策略响应进行评分,从而将其作为反馈用于在线策略RM训练。SAVE自然地将奖励分级的在线策略响应转换为监督信号,并使用特定于prompt的价值头作为自适应锚点。它计算RM优势并过滤模糊样本,通过对比目标更新RM。通过在六个不同的基准测试中进行的严格实证评估,SAVE在增强RM训练方面的有效性得到了强有力的验证。它在所有数据集上都取得了优异的结果,同时在三种强化学习算法(GRPO、RLOO、GSPO)和不同的策略骨干网络中保持了一致的改进。
🔬 方法详解
问题定义:论文旨在解决奖励模型(RM)训练中数据获取的瓶颈问题。现有方法依赖于人工标注或判别模型,获取偏好数据成本高昂且难以保证多样性和可靠性。此外,当策略不断演进时,静态的RM训练数据无法适应新的策略分布,导致RM性能下降。
核心思路:论文的核心思路是利用在线策略的价值函数作为反馈信号,对在线策略生成的响应进行评分,从而将这些响应转化为自监督的训练数据。通过这种方式,RM可以不断地从策略的最新行为中学习,从而适应策略的演进。
技术框架:SAVE框架主要包含以下几个模块:1) 策略模型:负责生成响应;2) 价值函数:用于评估策略生成的响应的价值;3) 奖励模型:需要训练的模型,用于预测响应的奖励;4) 自适应锚点:prompt-specific的价值头,用于将价值函数输出转换为奖励模型的训练目标;5) 对比学习模块:计算RM优势并过滤模糊样本,通过对比目标更新RM。整体流程是,策略模型生成响应,价值函数对响应进行评分,评分结果通过自适应锚点转换为奖励模型的训练目标,最后使用对比学习目标更新奖励模型。
关键创新:SAVE的关键创新在于利用在线策略的价值函数作为奖励模型的自监督信号。与传统的依赖人工标注或判别模型的方法不同,SAVE能够自动地从策略的最新行为中获取训练数据,从而更好地适应策略的演进。此外,使用prompt-specific的价值头作为自适应锚点,能够更准确地将价值函数输出转换为奖励模型的训练目标。
关键设计:SAVE使用对比学习目标来更新奖励模型。具体来说,它计算RM优势,并过滤掉那些优势不明显的模糊样本。对比学习目标鼓励奖励模型对优势高的样本给出更高的奖励,对优势低的样本给出更低的奖励。此外,论文还使用了prompt-specific的价值头作为自适应锚点,其具体结构和训练方式在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
SAVE在六个不同的基准测试中进行了评估,并在所有数据集上都取得了优异的结果。与现有方法相比,SAVE在奖励模型训练方面取得了显著的提升。更重要的是,SAVE在三种不同的强化学习算法(GRPO、RLOO、GSPO)和不同的策略骨干网络中都保持了一致的改进,证明了其鲁棒性和通用性。
🎯 应用场景
SAVE框架可广泛应用于各种需要奖励模型进行对齐的语言模型训练场景,例如对话系统、文本生成、代码生成等。通过降低奖励模型训练的数据成本和提高其适应性,SAVE能够加速语言模型的开发和部署,并提升其性能和安全性。该研究对于推动人工智能的实际应用具有重要意义。
📄 摘要(原文)
Building strong reward models (RMs) for language model alignment is bottlenecked by the cost and difficulty of acquiring diverse and reliable preference data from human annotation or judge models. It is dramatically worse as the policy evolves beyond the static RM training. Therefore, we propose SAVE (Self-supervised reward model improvement via Value-Anchored On-policy feedback), a framework that grades on-policy responses as feedback by using the value function for on-policy RM training. SAVE naturally converts the reward-graded on-policy responses into supervision with a prompt-specific value head as an adaptive anchor. It computes RM advantages and filters ambiguous samples to update the RM via a contrastive objective. The effectiveness of SAVE for enhancing RM training is strongly validated through rigorous empirical evaluation across six diverse benchmarks. It achieves outperforming results across all datasets while maintaining consistent improvements across three RL algorithms (GRPO, RLOO, GSPO) and different policy backbones.