Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning
作者: Zhiling Ye, Yun Yue, Haowen Wang, Xudong Han, Jiadi Jiang, Cheng Wei, Lei Fan, Jiaxin Liang, Shuowen Zhang, Ji Li, Chunxiao Guo, Jian Wang, Peng Wei, Jinjie Gu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-19
💡 一句话要点
提出自奖励的基于规则的强化学习框架,提升开放式推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自奖励学习 强化学习 开放式推理 大型语言模型 规则奖励 HealthBench 模型评估
📋 核心要点
- 现有大型语言模型在开放式推理评估中面临挑战,需要更有效的奖励信号。
- 论文提出自奖励的基于规则的强化学习框架,利用模型自身作为评分器生成奖励。
- 实验表明,该方法在HealthBench数据集上超越了GPT-5,且训练资源需求更低。
📝 摘要(中文)
开放式评估对于在实际环境中部署大型语言模型至关重要。在研究HealthBench时,我们发现使用模型本身作为评分器并生成基于规则的奖励信号可以显著提高推理性能。值得注意的是,训练后的模型也成为了更强大的评分器。受此启发,我们引入了用于开放式推理的自奖励的基于规则的强化学习,这是一个轻量级框架,可以实现更快、资源效率更高的训练,同时超越基线。值得注意的是,在Qwen3-32B上,仅使用4000个样本的HealthBench Easy子集进行训练就足以获得一个在HealthBench Hard上超过GPT-5的模型。加入少量教师评分的数据可以进一步提高能力较弱的模型的性能。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在开放式推理任务中,如何更有效地进行评估和训练的问题。现有的方法依赖于人工标注或复杂的奖励函数设计,成本高昂且难以泛化。此外,模型自身的能力评估也存在偏差,难以提供准确的训练信号。
核心思路:论文的核心思路是利用模型自身的能力,通过生成基于规则的奖励信号来进行强化学习。模型既是推理者,又是评分者,形成一个自奖励的闭环。这种方式可以减少对外部标注的依赖,并使模型能够更好地理解和优化自身的推理过程。
技术框架:整体框架包含以下几个主要阶段:1) 使用大型语言模型生成推理结果;2) 使用同一模型作为评分器,根据预定义的规则(rubric)对推理结果进行评估,生成奖励信号;3) 使用强化学习算法,根据奖励信号优化模型的推理策略。框架的关键在于如何设计有效的规则和奖励函数,以及如何平衡推理和评分两个任务。
关键创新:最重要的技术创新点在于“自奖励”机制,即模型自身生成奖励信号。这与传统的依赖外部奖励信号的强化学习方法有本质区别。通过自奖励,模型可以更自主地学习和优化推理策略,减少对人工干预的依赖。此外,基于规则的奖励信号也更易于解释和控制,可以避免模型学习到不期望的行为。
关键设计:论文的关键设计包括:1) 精心设计的规则(rubric),用于指导模型进行评分,确保奖励信号的准确性和一致性;2) 奖励函数的选择,需要平衡奖励的稀疏性和梯度的大小,以保证强化学习的稳定性和效率;3) 模型架构的选择,论文使用了Qwen3-32B作为基础模型,并对其进行了微调。此外,论文还探索了加入少量教师评分数据对模型性能的影响。
📊 实验亮点
实验结果表明,使用自奖励的基于规则的强化学习框架,仅使用4000个样本的HealthBench Easy子集训练的Qwen3-32B模型,在HealthBench Hard上的性能就超过了GPT-5。这表明该方法具有很高的效率和潜力。此外,加入少量教师评分的数据可以进一步提高能力较弱的模型的性能。
🎯 应用场景
该研究成果可应用于各种需要开放式推理能力的场景,例如医疗诊断、法律咨询、教育评估等。通过自奖励的强化学习,可以训练出更智能、更自主的语言模型,从而提高这些领域的效率和准确性。此外,该方法还可以降低对人工标注的依赖,降低开发成本。
📄 摘要(原文)
Open-ended evaluation is essential for deploying large language models in real-world settings. In studying HealthBench, we observe that using the model itself as a grader and generating rubric-based reward signals substantially improves reasoning performance. Remarkably, the trained model also becomes a stronger grader. Motivated by this, we introduce Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning, a lightweight framework that enables faster and more resource-efficient training while surpassing baselines. Remarkably, on Qwen3-32B, training with just the 4000-sample HealthBench Easy subset is sufficient to obtain a model that exceeds GPT-5 on HealthBench Hard. Incorporating a small amount of teacher-graded data further enhances performance for less capable models.