Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning
作者: Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu
分类: cs.LG, cs.CL
发布日期: 2026-03-11
💡 一句话要点
提出GR$^3$,通过群组相对奖励重缩放解决强化学习中的长度膨胀问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 长度膨胀 奖励重缩放 大型语言模型 策略优化
📋 核心要点
- 现有强化学习方法在解决LLM长度膨胀问题时,存在补偿效应和缺乏通用性的问题。
- GR$^3$将长度控制视为乘法重缩放,建立广义、连续、奖励相关的门控机制,解决长度膨胀。
- 实验表明,GR$^3$在减轻长度膨胀的同时,保持了训练动态和下游性能,优于现有方法。
📝 摘要(中文)
强化学习显著提升了大型语言模型(LLM)的能力,但同时也面临一个关键问题:长度膨胀,即模型为了最大化奖励而倾向于冗长或低效的推理。现有的方法难以通用且无损地解决这个问题,主要是因为附加惩罚会引入补偿效应,从而产生优化捷径,而启发式门控策略在二元反馈之外缺乏通用性。为了弥合这一差距,我们提出了群组相对奖励重缩放(GR$^3$),它将长度控制重新定义为一个乘法重缩放范式,有效地建立了一个广义的、连续的、奖励相关的门控机制。为了进一步确保无损优化,我们结合了群组相对正则化和优势感知校准,它们动态地调整长度预算以适应实例难度,并保留高质量轨迹的优势信号。在RLHF和RLVR设置中,实验结果表明,GR$^3$保持了与标准GRPO相当的训练动态和下游性能,同时显著减轻了长度膨胀,优于最先进的长度正则化基线。
🔬 方法详解
问题定义:论文旨在解决强化学习训练大型语言模型时出现的“长度膨胀”问题。具体来说,模型为了获得更高的奖励,会生成过长或冗余的文本,导致效率降低和资源浪费。现有方法,如添加长度惩罚项,往往会引入补偿效应,使得模型通过其他方式来弥补长度惩罚带来的损失,从而找到优化捷径。而启发式门控策略则缺乏通用性,难以适应不同的任务和奖励函数。
核心思路:GR$^3$的核心思路是将长度控制视为一种乘法重缩放过程,而不是传统的加性惩罚。通过对奖励进行重缩放,使得模型在生成更长文本时,奖励的增长速度会减缓,从而引导模型生成更简洁有效的文本。这种方法避免了加性惩罚带来的补偿效应,并提供了一种更灵活和通用的长度控制机制。
技术框架:GR$^3$主要包含三个关键组成部分:群组相对奖励重缩放、群组相对正则化和优势感知校准。首先,群组相对奖励重缩放通过比较同一批次内不同长度文本的奖励,动态调整奖励值。其次,群组相对正则化根据实例的难度动态调整长度预算,避免对简单实例过度惩罚。最后,优势感知校准保留高质量轨迹的优势信号,确保模型能够学习到真正有价值的策略。
关键创新:GR$^3$的关键创新在于将长度控制从加性惩罚转变为乘法重缩放。这种方法避免了加性惩罚带来的补偿效应,并提供了一种更灵活和通用的长度控制机制。此外,群组相对正则化和优势感知校准进一步提升了算法的性能和稳定性。
关键设计:GR$^3$的关键设计包括:1) 使用群组相对奖励进行重缩放,具体实现方式未知;2) 群组相对正则化,其具体实现方式未知,但目标是动态调整长度预算;3) 优势感知校准,其具体实现方式未知,但目标是保留高质量轨迹的优势信号。这些组件的具体参数设置和损失函数细节在论文中可能有所描述,但摘要中未提及。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GR$^3$在RLHF和RLVR两种设置下,能够显著减轻长度膨胀,同时保持与标准GRPO相当的训练动态和下游性能。GR$^3$优于现有的长度正则化基线,表明其在解决长度膨胀问题上的有效性。具体的性能提升幅度未知,需要在论文中查找。
🎯 应用场景
GR$^3$在多个领域具有广泛的应用前景,包括对话生成、文本摘要、代码生成等。通过有效控制生成文本的长度,可以提高模型的效率和实用性,降低计算成本,并改善用户体验。该方法还有助于提升生成内容的质量,避免冗余和无意义的信息,使得模型能够更好地服务于实际应用。
📄 摘要(原文)
Reinforcement learning significantly enhances LLM capabilities but suffers from a critical issue: length inflation, where models adopt verbosity or inefficient reasoning to maximize rewards. Prior approaches struggle to address this challenge in a general and lossless manner, primarily because additive penalties introduce a compensatory effect that creates optimization shortcuts, while heuristic gating strategies lack generality beyond binary feedback. To bridge this gap, we present Group Relative Reward Rescaling (GR$^3$), which reframes length control as a multiplicative rescaling paradigm, effectively establishing a generalized, continuous, and reward-dependent gating mechanism. To further ensure lossless optimization, we incorporate group-relative regularization and advantage-aware calibration, which dynamically adapt length budgets to instance difficulty and preserve the advantage signal of high-quality trajectories. Empirically, across both RLHF and RLVR settings, GR$^3$~maintains training dynamics and downstream performance comparable to standard GRPO while significantly mitigating length inflation, outperforming state-of-the-art length-regularized baselines.