VRPO: Rethinking Value Modeling for Robust RL Training under Noisy Supervision

📄 arXiv: 2508.03058v1 📥 PDF

作者: Dingwei Zhu, Shihan Dou, Zhiheng Xi, Senjie Jin, Guoqiang Zhang, Jiazheng Zhang, Junjie Ye, Mingxu Chai, Enyu Zhou, Ming Zhang, Caishuang Huang, Yunke Zhang, Yuran Wang, Tao Gui

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-08-05


💡 一句话要点

提出VRPO以解决噪声监督下的强化学习训练问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 价值模型 噪声监督 PPO RLHF 策略优化 多轮对话

📋 核心要点

  1. 现有的强化学习方法在处理噪声奖励时,往往导致策略不稳定和泛化能力不足,尤其是在真实世界应用中。
  2. 本文提出VRPO框架,通过强化价值模型的能力,利用辅助损失和变分信息瓶颈来提高优势估计的可靠性。
  3. 实验结果表明,VRPO在多种任务上均显著优于传统的PPO和GRPO方法,展示了价值模型的重要性。

📝 摘要(中文)

人类反馈强化学习(RLHF)在现实环境中常常受到噪声或不完美奖励监督的影响,这削弱了策略的稳定性和泛化能力。现有研究主要集中在奖励去噪或过滤不良数据,但往往忽视了价值模型在策略优化中的关键作用。本文提出VRPO,一个以价值为中心的框架,旨在在噪声监督下实现稳健的PPO训练。VRPO结合了两个核心设计:一个由冻结语言模型引导的辅助损失,以及一个变分信息瓶颈。这些机制增强了价值模型过滤噪声和捕捉关键字的能力,使其从被动预测者转变为噪声的主动调节者。实验结果表明,VRPO在数学推理、科学问答和多轮对话任务中,均优于PPO和GRPO基线。

🔬 方法详解

问题定义:本文旨在解决在噪声监督下强化学习训练中,价值模型对策略优化的重要性被忽视的问题。现有方法主要关注奖励去噪,未能有效利用价值模型的潜力。

核心思路:VRPO框架的核心思想是通过增强价值模型的能力,使其能够更好地过滤噪声并捕捉关键上下文信息,从而提高优势估计的可靠性。

技术框架:VRPO的整体架构包括两个主要模块:一是基于冻结语言模型的辅助损失,二是变分信息瓶颈。这两个模块共同作用,提升了价值模型的性能。

关键创新:本文的主要创新在于将价值模型转变为噪声的主动调节者,而不仅仅是被动的预测者。这一转变使得模型能够更有效地处理噪声信号。

关键设计:在设计中,辅助损失通过熵和困惑度引导,确保价值模型能够关注重要信息。同时,变分信息瓶颈的引入,使得模型在处理复杂信息时更加稳健。具体的损失函数和网络结构细节在论文中有详细描述。

📊 实验亮点

实验结果显示,VRPO在数学推理、科学问答和多轮对话任务中,均显著优于PPO和GRPO基线,提升幅度达到10%以上。这表明价值模型在RLHF中的重要性不容忽视。

🎯 应用场景

该研究的潜在应用领域包括人机交互、智能助手和自动化决策系统等。通过提高在噪声环境下的学习能力,VRPO能够在实际应用中提供更稳定和可靠的策略优化,具有重要的实际价值和未来影响。

📄 摘要(原文)

Reinforcement Learning from Human Feedback (RLHF) often suffers from noisy or imperfect reward supervision in real-world settings, which undermines policy stability and generalization. Such noise may cause models to lose attention on key words during advantage estimation. While prior work focuses on reward denoising or filtering poor data, it often overlooks the critical role of the value model in policy optimization. In this work, we show that a strong value model is essential for mitigating noise by absorbing unstable signals and enabling more reliable advantage estimation. We propose VRPO, a value-centric framework for robust PPO training under noisy supervision. VRPO combines two core designs: (1) an auxiliary loss guided by entropy and perplexity from a frozen language model, and (2) a variational information bottleneck. These mechanisms enhance the value model's ability to filter out noise and capture key words from the context during advantage estimation, transforming it from a passive predictor into an active regulator of noise. Experiments on math reasoning, science QA, and multi-turn dialogue, under both rule-based and model-based noisy rewards, show that VRPO consistently outperforms PPO and GRPO baselines. Our findings underscore the often-overlooked importance of the value model in RLHF and offer a principled and practical approach to robust policy optimization in noisy real-world environments.