Focal Reward: Balanced Reinforcement Learning under Rubric-Based Rewards
作者: Yu Huang, Zihua Zhao, Zhaoxin Huan, Wanli Gu, Feng Hong, Xinmu Ge, Lin Yuan, Weichang Wu, Qiang Hu, Xiaolu Zhang, Jun Zhou, Jiangchao Yao
分类: cs.LG
发布日期: 2026-05-26
备注: Preprint
💡 一句话要点
提出Focal Reward,解决LLM中基于规则奖励的强化学习训练不平衡问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 大型语言模型 奖励函数 多目标优化 规则奖励
📋 核心要点
- LLM开放生成依赖多维规则评估和强化学习,但不同维度奖励不平衡导致模型在某些方面表现不佳。
- Focal Reward通过逆奖励投影估计规则饱和度,并自动调整各维度奖励权重,实现细粒度平衡。
- 实验表明,Focal Reward在多个模型和基准测试中优于静态聚合基线,提升源于对未饱和规则的在线重新分配。
📝 摘要(中文)
大型语言模型(LLM)中的开放式生成通常需要多维规则来充分评估质量并指导强化学习的改进。然而,这种训练范式中存在一个关键困境,即不同规则维度之间奖励极化的不平衡。在这种瓶颈下,即使LLM在训练后获得了相对较高的奖励,它们在某些维度上仍然可能表现出严重的缺陷,从而直接导致用户体验的恶化。为了解决这个问题,我们提出了一种新的目标函数Focal Reward,以自动平衡基于规则奖励的强化学习训练。具体来说,我们首先利用逆奖励投影机制来估计规则中每个标准的饱和度,这构成了校准奖励方向的基础。然后,最终目标函数被设计为具有每个标准的自动重新加权系数,以实现细粒度的平衡。在三个模型规模和六个基准上的大量实验表明,我们的Focal Reward方法在所有18个模型-基准比较中都优于最强的静态聚合基线。Rollout、机制和消融分析进一步表明,这些收益来自于在线的、感知饱和度的重新分配,使其朝着仍有改进空间的规则倾斜。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在开放式生成任务中,使用基于规则的奖励进行强化学习时,不同规则维度之间奖励不平衡的问题。现有方法通常采用静态聚合的方式处理多维奖励,但这种方法无法有效解决某些维度奖励饱和而另一些维度欠饱和的情况,导致模型在某些关键维度上表现不足,最终影响用户体验。
核心思路:论文的核心思路是根据每个规则维度的饱和程度动态调整奖励权重。通过估计每个规则的饱和度,并降低已饱和规则的奖励权重,提高未饱和规则的奖励权重,从而引导模型更多地关注那些仍有提升空间的维度,实现更均衡的训练。
技术框架:Focal Reward方法主要包含以下几个关键模块:1) 逆奖励投影机制:用于估计每个规则维度的饱和度。该机制通过分析模型在每个维度上获得的奖励,判断该维度是否已经接近最优状态。2) 自动重加权系数:根据饱和度估计结果,为每个规则维度分配一个自动调整的权重。饱和度高的维度权重降低,饱和度低的维度权重提高。3) 最终目标函数:结合原始奖励和重新加权的系数,形成最终的强化学习目标函数。该目标函数引导模型在训练过程中更加关注未饱和的规则维度。
关键创新:该方法最重要的创新点在于其动态调整奖励权重的能力。与传统的静态聚合方法不同,Focal Reward能够根据模型在每个规则维度上的实际表现,在线地调整奖励权重,从而实现更精细的平衡训练。这种动态调整机制使得模型能够更好地利用训练资源,更快地提升在各个维度上的性能。
关键设计:1) 饱和度估计:使用逆奖励投影机制来估计每个规则维度的饱和度。具体实现方式未知,但推测可能涉及对奖励分布的统计分析。2) 重加权系数计算:根据饱和度估计结果,使用某种函数(具体形式未知)计算每个规则维度的重加权系数。该函数的设计需要保证饱和度高的维度权重降低,饱和度低的维度权重提高。3) 目标函数构建:将原始奖励与重加权系数相乘,得到最终的强化学习目标函数。具体形式可能为加权和或加权平均。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Focal Reward方法在所有18个模型-基准比较中都优于最强的静态聚合基线。具体的性能提升数据未知,但论文强调这些提升来自于对未饱和规则的在线重新分配。Rollout、机制和消融分析进一步验证了该方法的有效性。
🎯 应用场景
Focal Reward方法可广泛应用于需要多维度评估指标的LLM开放式生成任务中,例如文本摘要、对话生成、代码生成等。通过平衡不同维度上的性能,该方法可以显著提升生成内容的质量和用户体验。未来,该方法还可以扩展到其他类型的强化学习任务中,例如机器人控制、游戏AI等。
📄 摘要(原文)
The open-ended generation in LLMs usually requires multi-dimensional rubrics to adequately assess quality and guide the improvement of reinforcement learning. However, a critical dilemma inherent in this training paradigm is the imbalanced reward polarization along different rubric dimensions. Under this bottleneck, even if LLMs achieve relatively high rewards after training, they may still exhibit severe deficiencies in certain dimensions, leading to a direct deterioration in user experience. To address this problem, we propose Focal Reward, a novel objective to automatically balance the training of reinforcement learning under rubric-based rewards. Specifically, we first leverage an inverse reward projection mechanism to estimate the saturation degree of each criterion in the rubric, which forms the basis to calibrate the reward direction. Then, the final objective is designed with an automatically reweighting coefficient for each criterion to achieve the fine-grained balancing. Extensive experiments across three model scales and six benchmarks demonstrate that our Focal Reward method outperforms the strongest static aggregation baseline in all 18 model-benchmark comparisons. Rollout, mechanism, and ablation analyses further show that these gains arise from online, saturation-aware reallocation toward rubrics that still have room for improvement.