Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning

📄 arXiv: 2509.25534v1 📥 PDF

作者: Zhiling Ye, Yun Yue, Haowen Wang, Xudong Han, Jiadi Jiang, Cheng Wei, Lei Fan, Jiaxin Liang, Shuowen Zhang, Ji Li, Chunxiao Guo, Jian Wang, Peng Wei, Jinjie Gu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-19


💡 一句话要点

提出自奖励的基于规则的强化学习框架,提升开放式推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自奖励学习 强化学习 开放式推理 大型语言模型 规则奖励

📋 核心要点

  1. 现有大型语言模型在开放式评估中面临挑战,模型推理能力难以有效提升。
  2. 论文提出自奖励的基于规则的强化学习框架,利用模型自身作为评分器,生成奖励信号。
  3. 实验表明,该方法在HealthBench数据集上超越了GPT-5,且训练更高效,资源消耗更少。

📝 摘要(中文)

开放式评估对于在实际环境中部署大型语言模型至关重要。在研究HealthBench时,我们观察到使用模型本身作为评分器并生成基于规则的奖励信号可以显著提高推理性能。值得注意的是,训练后的模型也变得更强大。受此启发,我们引入了用于开放式推理的自奖励的基于规则的强化学习,这是一个轻量级框架,可以实现更快、资源效率更高的训练,同时超越基线。值得注意的是,在Qwen3-32B上,仅使用4000个样本的HealthBench Easy子集进行训练就足以获得一个在HealthBench Hard上超过GPT-5的模型。加入少量教师评分的数据可以进一步提高能力较弱的模型的性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在开放式推理任务中,难以有效利用自身能力进行提升的问题。现有方法依赖人工标注或外部评分,成本高昂且难以扩展。模型自身生成的答案质量参差不齐,难以提供有效的训练信号。

核心思路:核心思想是利用模型自身作为评分器,对生成的答案进行评估,并基于预定义的规则(rubric)生成奖励信号。通过强化学习,模型可以学习生成更高质量的答案,从而获得更高的奖励。这种自奖励机制可以有效利用模型自身的知识,避免对大量人工标注数据的依赖。

技术框架:整体框架包含以下几个主要阶段:1) 模型生成答案;2) 模型自身作为评分器,根据预定义的规则对答案进行评估;3) 基于评估结果生成奖励信号;4) 使用强化学习算法(如PPO)更新模型参数,目标是最大化累积奖励。这个过程迭代进行,直到模型收敛。

关键创新:最重要的创新点在于引入了自奖励机制,即利用模型自身作为评分器。这与传统的强化学习方法不同,后者通常依赖外部奖励信号。自奖励机制可以有效利用模型自身的知识,降低对人工标注数据的依赖,并实现更高效的训练。此外,基于规则的奖励信号设计也至关重要,它需要能够准确反映答案的质量。

关键设计:关键设计包括:1) 预定义的规则(rubric)的设计,需要根据具体任务进行调整,以确保奖励信号能够准确反映答案的质量;2) 强化学习算法的选择,论文使用了PPO算法,并对其参数进行了调整,以获得更好的性能;3) 奖励函数的设置,需要平衡探索和利用,以避免模型陷入局部最优解;4) 模型自身的评分能力会随着训练而提升,因此需要动态调整评分策略。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,在HealthBench数据集上,使用Qwen3-32B模型,仅使用4000个样本的HealthBench Easy子集进行训练,即可超越GPT-5在HealthBench Hard上的性能。这表明该方法具有很高的效率和泛化能力。此外,加入少量教师评分的数据可以进一步提高能力较弱的模型的性能。

🎯 应用场景

该研究成果可广泛应用于需要开放式评估的自然语言处理任务,例如医疗诊断、法律咨询、教育评估等。通过自奖励机制,可以降低对人工标注数据的依赖,提高模型训练效率,并提升模型在复杂推理任务中的性能。未来,该方法有望应用于更广泛的领域,例如机器人控制、智能决策等。

📄 摘要(原文)

Open-ended evaluation is essential for deploying large language models in real-world settings. In studying HealthBench, we observe that using the model itself as a grader and generating rubric-based reward signals substantially improves reasoning performance. Remarkably, the trained model also becomes a stronger grader. Motivated by this, we introduce Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning, a lightweight framework that enables faster and more resource-efficient training while surpassing baselines. Remarkably, on Qwen3-32B, training with just the 4000-sample HealthBench Easy subset is sufficient to obtain a model that exceeds GPT-5 on HealthBench Hard. Incorporating a small amount of teacher-graded data further enhances performance for less capable models.