From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning

📄 arXiv: 2601.23058v1 📥 PDF

作者: Wenzhe Niu, Wei He, Zongxia Xie, Jinpeng Ou, Huichuan Fan, Yuchen Ge, Yanru Sun, Ziyin Wang, Yizhao Sun, Chengshun Shi, Jiuchong Gao, Jinghua Hao, Renqing He

分类: cs.LG

发布日期: 2026-01-30


💡 一句话要点

提出RLRR框架,通过相对奖励解决基于群体强化学习中的奖励稀疏和不稳定的问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 群体学习 奖励塑造 相对奖励 排序学习 大型语言模型 策略优化

📋 核心要点

  1. 现有基于群体的强化学习方法依赖绝对奖励,面临奖励稀疏和范围不稳定的问题。
  2. RLRR框架将奖励塑造转变为相对排序,并引入排序奖励模型直接生成相对排名。
  3. 实验表明,RLRR在推理和开放式生成任务中,性能优于标准基线方法。

📝 摘要(中文)

强化学习已成为增强大型语言模型推理能力的重要基石。其中,基于群体的方法(如GRPO)通过利用群体内部的性能差异来优化策略,成为一种高效的范例。然而,这些方法通常依赖于绝对数值奖励,这带来了一些内在的局限性。在可验证的任务中,相同的群体评估通常导致稀疏的监督信号;而在开放式场景中,奖励模型的评分范围不稳定会削弱基于群体均值的优势估计。为了解决这些限制,我们提出了基于相对奖励的强化学习(RLRR)框架,该框架将奖励塑造从绝对评分转变为相对排序。作为该框架的补充,我们引入了排序奖励模型,这是一种为基于群体的优化量身定制的列表式偏好模型,可以直接生成相对排名。通过将原始评估转化为鲁棒的相对信号,RLRR有效地缓解了信号稀疏性和奖励不稳定性。实验结果表明,在推理基准和开放式生成任务中,RLRR相对于标准基于群体的基线方法,性能均得到了一致的提升。

🔬 方法详解

问题定义:现有基于群体的强化学习方法,例如GRPO,在利用群体内部表现差异进行策略优化时,依赖于绝对数值奖励。这种依赖性导致两个主要问题:一是奖励稀疏性,尤其是在可验证的任务中,如果群体内的所有个体表现相似,则难以区分优劣;二是奖励不稳定性,在开放式任务中,奖励模型的评分标准可能随时间变化,导致优势估计不准确。这些问题限制了算法的有效性和泛化能力。

核心思路:RLRR的核心思路是将奖励信号从绝对数值转化为相对排名。这意味着不再关注个体获得的绝对分数,而是关注个体在群体中的相对表现。通过比较群体内个体的表现,可以更鲁棒地估计优势,并减少奖励稀疏性和不稳定性带来的影响。这种相对奖励的方式能够提供更稳定和可靠的训练信号。

技术框架:RLRR框架包含两个主要组成部分:一是相对奖励生成机制,它将原始的绝对奖励转化为群体内的相对排名;二是排序奖励模型,用于直接预测群体内个体的相对排名。整体流程如下:首先,从环境中收集一组策略生成的样本。然后,使用奖励模型对每个样本进行评估,得到绝对奖励。接着,将这些绝对奖励转化为群体内的相对排名。最后,使用相对排名作为训练信号,优化策略网络。

关键创新:RLRR的关键创新在于将奖励塑造从绝对评分转变为相对排序。与传统的依赖绝对奖励的方法不同,RLRR关注个体在群体中的相对表现,从而缓解了奖励稀疏性和不稳定性问题。此外,引入的排序奖励模型能够直接预测相对排名,避免了中间步骤的误差累积。

关键设计:排序奖励模型采用列表式偏好模型,例如ListNet或RankNet,直接预测群体内个体的相对排名。损失函数通常采用交叉熵损失或排序损失,以优化模型预测排名的准确性。在训练过程中,可以使用不同的采样策略来平衡正负样本,例如Hard Negative Mining。此外,还可以引入正则化项来防止过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RLRR在推理基准和开放式生成任务中均优于标准基于群体的基线方法。具体而言,在某些任务上,RLRR的性能提升幅度超过10%。这些结果验证了相对奖励在缓解奖励稀疏性和不稳定性方面的有效性,并证明了RLRR框架的优越性。

🎯 应用场景

RLRR框架具有广泛的应用前景,可应用于需要群体协作或竞争的强化学习任务中,例如多智能体系统、机器人协同控制、以及大型语言模型的指令遵循和内容生成等。通过利用相对奖励,可以更有效地训练智能体,提高其在复杂环境中的适应性和鲁棒性。该方法尤其适用于奖励信号稀疏或不稳定的场景。

📄 摘要(原文)

Reinforcement learning has become a cornerstone for enhancing the reasoning capabilities of Large Language Models, where group-based approaches such as GRPO have emerged as efficient paradigms that optimize policies by leveraging intra-group performance differences. However, these methods typically rely on absolute numerical rewards, introducing intrinsic limitations. In verifiable tasks, identical group evaluations often result in sparse supervision, while in open-ended scenarios, the score range instability of reward models undermines advantage estimation based on group means. To address these limitations, we propose Reinforcement Learning with Relative Rewards (RLRR), a framework that shifts reward shaping from absolute scoring to relative ranking. Complementing this framework, we introduce the Ranking Reward Model, a listwise preference model tailored for group-based optimization to directly generate relative rankings. By transforming raw evaluations into robust relative signals, RLRR effectively mitigates signal sparsity and reward instability. Experimental results demonstrate that RLRR yields consistent performance improvements over standard group-based baselines across reasoning benchmarks and open-ended generation tasks.