Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

作者: Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu

分类: cs.LG, cs.CL

发布日期: 2026-03-11

💡 一句话要点

提出GR$^3$，通过群组相对奖励重缩放解决强化学习中的长度膨胀问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 长度膨胀 奖励重缩放 大型语言模型 策略优化

📋 核心要点

现有强化学习方法在解决LLM长度膨胀问题时，存在补偿效应和缺乏通用性的问题。
GR$^3$将长度控制视为乘法重缩放，建立广义、连续、奖励相关的门控机制，解决长度膨胀。
实验表明，GR$^3$在减轻长度膨胀的同时，保持了训练动态和下游性能，优于现有方法。

📝 摘要（中文）

强化学习显著提升了大型语言模型（LLM）的能力，但同时也面临一个关键问题：长度膨胀，即模型为了最大化奖励而倾向于冗长或低效的推理。现有的方法难以通用且无损地解决这个问题，主要是因为附加惩罚会引入补偿效应，从而产生优化捷径，而启发式门控策略在二元反馈之外缺乏通用性。为了弥合这一差距，我们提出了群组相对奖励重缩放（GR$^3$），它将长度控制重新定义为一个乘法重缩放范式，有效地建立了一个广义的、连续的、奖励相关的门控机制。为了进一步确保无损优化，我们结合了群组相对正则化和优势感知校准，它们动态地调整长度预算以适应实例难度，并保留高质量轨迹的优势信号。在RLHF和RLVR设置中，实验结果表明，GR$^3$保持了与标准GRPO相当的训练动态和下游性能，同时显著减轻了长度膨胀，优于最先进的长度正则化基线。

🔬 方法详解

问题定义：论文旨在解决强化学习训练大型语言模型时出现的“长度膨胀”问题。具体来说，模型为了获得更高的奖励，会生成过长或冗余的文本，导致效率降低和资源浪费。现有方法，如添加长度惩罚项，往往会引入补偿效应，使得模型通过其他方式来弥补长度惩罚带来的损失，从而找到优化捷径。而启发式门控策略则缺乏通用性，难以适应不同的任务和奖励函数。

核心思路：GR$^3$的核心思路是将长度控制视为一种乘法重缩放过程，而不是传统的加性惩罚。通过对奖励进行重缩放，使得模型在生成更长文本时，奖励的增长速度会减缓，从而引导模型生成更简洁有效的文本。这种方法避免了加性惩罚带来的补偿效应，并提供了一种更灵活和通用的长度控制机制。

技术框架：GR$^3$主要包含三个关键组成部分：群组相对奖励重缩放、群组相对正则化和优势感知校准。首先，群组相对奖励重缩放通过比较同一批次内不同长度文本的奖励，动态调整奖励值。其次，群组相对正则化根据实例的难度动态调整长度预算，避免对简单实例过度惩罚。最后，优势感知校准保留高质量轨迹的优势信号，确保模型能够学习到真正有价值的策略。

关键创新：GR$^3$的关键创新在于将长度控制从加性惩罚转变为乘法重缩放。这种方法避免了加性惩罚带来的补偿效应，并提供了一种更灵活和通用的长度控制机制。此外，群组相对正则化和优势感知校准进一步提升了算法的性能和稳定性。

关键设计：GR$^3$的关键设计包括：1) 使用群组相对奖励进行重缩放，具体实现方式未知；2) 群组相对正则化，其具体实现方式未知，但目标是动态调整长度预算；3) 优势感知校准，其具体实现方式未知，但目标是保留高质量轨迹的优势信号。这些组件的具体参数设置和损失函数细节在论文中可能有所描述，但摘要中未提及。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GR$^3$在RLHF和RLVR两种设置下，能够显著减轻长度膨胀，同时保持与标准GRPO相当的训练动态和下游性能。GR$^3$优于现有的长度正则化基线，表明其在解决长度膨胀问题上的有效性。具体的性能提升幅度未知，需要在论文中查找。

🎯 应用场景

GR$^3$在多个领域具有广泛的应用前景，包括对话生成、文本摘要、代码生成等。通过有效控制生成文本的长度，可以提高模型的效率和实用性，降低计算成本，并改善用户体验。该方法还有助于提升生成内容的质量，避免冗余和无意义的信息，使得模型能够更好地服务于实际应用。

📄 摘要（原文）

Reinforcement learning significantly enhances LLM capabilities but suffers from a critical issue: length inflation, where models adopt verbosity or inefficient reasoning to maximize rewards. Prior approaches struggle to address this challenge in a general and lossless manner, primarily because additive penalties introduce a compensatory effect that creates optimization shortcuts, while heuristic gating strategies lack generality beyond binary feedback. To bridge this gap, we present Group Relative Reward Rescaling (GR$^3$), which reframes length control as a multiplicative rescaling paradigm, effectively establishing a generalized, continuous, and reward-dependent gating mechanism. To further ensure lossless optimization, we incorporate group-relative regularization and advantage-aware calibration, which dynamically adapt length budgets to instance difficulty and preserve the advantage signal of high-quality trajectories. Empirically, across both RLHF and RLVR settings, GR$^3$~maintains training dynamics and downstream performance comparable to standard GRPO while significantly mitigating length inflation, outperforming state-of-the-art length-regularized baselines.

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理