Tournament-GRPO: Group-Wise Tournament Rewards for Reinforcement Learning in Open-Ended Long-Form Generation
作者: Zixuan Yang, Yiqun Chen, Wei Yang, Erhan Zhang, Zihan Shen, Xiaochi Wei, Yan Gao, Yi Wu, Yao Hu, Jiaxin Mao
分类: cs.CL, cs.AI
发布日期: 2026-05-26
💡 一句话要点
提出Tournament-GRPO,通过锦标赛奖励优化开放式长文本生成中的强化学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 长文本生成 奖励设计 锦标赛算法 LLM评估
📋 核心要点
- 现有开放式长文本生成强化学习方法依赖LLM评分,但绝对分数校准困难,区分度弱,易饱和。
- Tournament-GRPO通过分组锦标赛将LLM评分转化为相对奖励,用于GRPO训练,提升奖励信号质量。
- 实验表明,Tournament-GRPO显著优于现有基线,在Deep Research Bench上总体得分提升4.52分。
📝 摘要(中文)
开放式长文本生成中的强化学习面临挑战,因为缺乏可靠的参考答案和自动评估指标。现有的基于规则的方法通常依赖于LLM作为裁判进行逐点评分,但绝对分数难以在复杂响应中校准,对相同查询的rollout区分度较弱,并且在优化过程中可能饱和。我们提出了Tournament-GRPO,一个分组奖励框架,通过相同查询rollout之间的重复多轮锦标赛,将规则引导的LLM判断转化为相对奖励。Tournament-GRPO比较组内的候选者,累积锦标赛结果,并将其归一化为GRPO训练的分组奖励。在Deep Research Bench上的实验表明,Tournament-GRPO始终优于现有的奖励设计基线,比最强的基线提高了4.52分的总体得分。进一步的分析表明,锦标赛奖励提供了良好的有效性-效率权衡,并且锦标赛设计影响训练动态。这些结果表明,规则引导的锦标赛比较为开放式长文本生成中的强化学习提供了有效的奖励信号。
🔬 方法详解
问题定义:开放式长文本生成中的强化学习任务,由于缺乏可靠的参考答案和自动评估指标,难以设计有效的奖励函数。现有方法依赖LLM进行逐点评分,但绝对分数在复杂文本中难以校准,对相似文本区分度不高,且在优化过程中容易饱和,导致训练效果不佳。
核心思路:核心思路是将LLM的绝对评分转化为相对排名,通过在同一查询的多个生成结果之间进行多轮锦标赛,让LLM比较这些结果的优劣,从而得到相对奖励。这种相对奖励更易于校准,区分度更高,且不易饱和。
技术框架:Tournament-GRPO框架主要包含以下几个阶段:1) Rollout:使用强化学习策略生成多个文本结果;2) 分组:将同一查询的多个结果分为一组;3) 锦标赛:在每组内进行多轮锦标赛,每轮由LLM比较两个结果的优劣;4) 奖励计算:根据锦标赛的结果,计算每个结果的相对奖励;5) GRPO训练:使用计算得到的奖励进行GRPO(Generalized Policy Optimization)训练,优化生成策略。
关键创新:关键创新在于将LLM的绝对评分转化为相对排名,通过锦标赛的方式进行比较,从而得到更有效的奖励信号。与现有方法直接使用LLM的绝对评分作为奖励相比,Tournament-GRPO的奖励信号更稳定、更易于校准,且区分度更高。
关键设计:关键设计包括:1) 锦标赛的轮数:需要根据实际情况进行调整,轮数越多,比较结果越准确,但计算成本也越高;2) LLM的选择:需要选择具有较强文本理解和评估能力的LLM;3) 奖励的归一化方法:需要选择合适的归一化方法,将奖励值归一化到合适的范围内,以保证训练的稳定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Tournament-GRPO在Deep Research Bench上显著优于现有基线,总体得分提升4.52分。此外,实验还表明,锦标赛奖励提供了良好的有效性-效率权衡,并且锦标赛设计影响训练动态。这些结果验证了Tournament-GRPO的有效性和优越性。
🎯 应用场景
Tournament-GRPO可应用于各种开放式长文本生成任务,例如研究论文写作、故事创作、对话生成等。通过更有效的奖励信号,可以提升生成文本的质量、连贯性和创造性,具有广泛的应用前景和实际价值。未来可以探索将该方法应用于其他类型的生成任务,例如图像生成、音频生成等。
📄 摘要(原文)
Reinforcement learning in open-ended long-form generation is challenging because reliable reference answers and automatic metrics are often unavailable. Existing rubric-based methods typically rely on pointwise LLM-as-a-judge scoring, but absolute scores are difficult to calibrate across complex responses, may provide weak discrimination among same-query rollouts, and can become saturated during optimization. We propose Tournament-GRPO, a group-wise reward framework that converts rubric-guided LLM judgments into relative rewards through repeated multi-round tournaments among same-query rollouts. Tournament-GRPO compares candidates within groups, accumulates tournament outcomes, and normalizes them into group-wise rewards for GRPO training. Experiments on Deep Research Bench show that Tournament-GRPO consistently outperforms existing reward-design baselines, achieving a 4.52-point overall-score improvement over the strongest baseline. Further analyses show that tournament rewards provide a favorable effectiveness--efficiency trade-off and that tournament design affects training dynamics. These results suggest that rubric-guided tournament comparison provides an effective reward signal for reinforcement learning in open-ended long-form generation.