Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

📄 arXiv: 2606.10528v1 📥 PDF

作者: Guozheng Li, Xiyan Fu, Yiwen Guo

分类: cs.LG, cs.CL

发布日期: 2026-06-09


💡 一句话要点

提出基于表示的优势估计以提升人类反馈强化学习效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人类反馈强化学习 优势估计 奖励模型 图结构 深度学习

📋 核心要点

  1. 现有的RLHF方法主要依赖于标量奖励,导致噪声大且无法捕捉细微的偏好差异。
  2. 提出的GraphAE方法利用RM的隐藏状态,将其视为辅助信号,通过图结构进行优势估计。
  3. 实验结果表明,GraphAE在多个基准上均显著提升了性能,验证了其有效性。

📝 摘要(中文)

当前的人类反馈强化学习(RLHF)方法主要依赖于训练好的奖励模型(RM)提供的标量奖励。尽管有效,标量奖励往往噪声较大,无法捕捉细微的偏好差异,而RM的隐藏状态则编码了更丰富的语义和偏好信息。本文提出了表示感知的优势估计方法,利用RM的隐藏状态作为辅助信号以改善优势估计。具体而言,我们提出了基于图的优势估计(GraphAE),将每个采样组视为图,其中节点对应于响应,边捕捉它们在RM隐藏空间中的相似性。通过图传播计算优势,使每个样本能够融入来自邻居的上下文信息。GraphAE轻量且可无缝集成到现有的基于组的RL算法中。我们将GraphAE应用于GRPO、GSPO和RLOO,并在不同模型和基准上进行了广泛实验。实证结果显示,在三个基准上均有一致的提升,Arena-Hard-v0.1上提升高达+6.3,AlpacaEval 2.0上提升+8.27,MT-Bench上提升+0.22。这些结果表明,利用RM表示可以实现更高效和更稳健的RLHF。

🔬 方法详解

问题定义:当前的RLHF方法依赖于标量奖励,这些奖励往往噪声较大,无法有效捕捉细微的偏好差异,导致学习效率低下。

核心思路:本文提出的GraphAE方法利用RM的隐藏状态作为辅助信号,通过图结构进行优势估计,从而改善学习效果。该方法能够更好地捕捉样本间的相似性和上下文信息。

技术框架:GraphAE将每个采样组视为图,节点表示响应,边表示它们在RM隐藏空间中的相似性。通过图传播机制,计算每个样本的优势,整合邻居的上下文信息。

关键创新:最重要的创新在于将RM的隐藏状态作为图的节点,通过图传播计算优势,这一方法与传统的标量奖励方法本质上不同,能够更好地利用隐藏信息。

关键设计:在设计中,GraphAE采用轻量级结构,能够无缝集成到现有的RL算法中,具体的参数设置和损失函数设计尚未详细披露。实验中展示了其在多个基准上的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,GraphAE在Arena-Hard-v0.1上提升了+6.3,在AlpacaEval 2.0上提升了+8.27,在MT-Bench上提升了+0.22,均显著优于基线方法。这些结果表明,利用RM表示可以实现更高效的样本利用和更稳健的学习效果。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、游戏智能体训练以及任何需要人类反馈的强化学习任务。通过提高学习效率和鲁棒性,GraphAE有望在实际应用中显著提升智能体的表现,推动RLHF技术的进一步发展。

📄 摘要(原文)

Current reinforcement learning from human feedback (RLHF) methods primarily rely on scalar rewards from a trained reward model (RM). While effective, scalar rewards are often noisy and fail to capture fine-grained preference differences, whereas RM hidden states encode richer semantic and preference information. We introduce the representation-aware advantage estimation, which leverages RM hidden states and models them as auxiliary signals for better advantage estimation. Specifically, we propose the Graph-based Advantage Estimation (GraphAE), treat each sampled group as a graph, where nodes correspond to responses and edges capture their similarity in the RM hidden space. Then advantages are computed via graph propagation, enabling each sample to incorporate contextual information from its neighbors. GraphAE is lightweight and can be seamlessly integrated into existing group-based RL algorithms. We apply GraphAE to GRPO, GSPO and RLOO, and conduct extensive experiments on different models and benchmarks. Empirical results show consistent improvements across three benchmarks, with gains of up to + 6.3 on Arena-Hard-v0.1, + 8.27 on AlpacaEval 2.0, and + 0.22 on MT-Bench. These results demonstrate that leveraging RM representations leads to more sample efficient and robust RLHF.