R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging
作者: Yanlin Lai, Mitt Huang, Hangyu Guo, Xiangfeng Wang, Haodong Li, Shaoxiong Zhan, Liang Zhao, Chengyuan Yao, Yinmin Zhang, Qi Han, Chun Yuan, Zheng Ge, Xiangyu Zhang, Daxin Jiang
分类: cs.CL
发布日期: 2026-02-06
备注: Github: https://github.com/lyn22333/R-Align Huggingface: https://huggingface.co/collections/lyn22333/r-align
💡 一句话要点
R-Align:通过以推理为中心的元判断增强生成式奖励模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成式奖励模型 强化学习 人类反馈 推理保真度 元学习 语言模型对齐 虚假正确性
📋 核心要点
- 现有生成式奖励模型(GenRM)训练和评估仅关注结果标签,忽略了推理质量的评估,导致模型推理过程可能与人类判断不一致。
- R-Align通过引入以推理为中心的对齐方法,利用黄金标准判断显式地监督推理过程,提高GenRM的推理保真度。
- 实验表明,R-Align能有效降低虚假正确性(S-Corr),并在多种任务中提升actor性能,验证了其有效性。
📝 摘要(中文)
为了在主观领域对大型语言模型(LLMs)进行对齐,从人类反馈中进行强化学习(RLHF)仍然是不可或缺的。为了增强鲁棒性,最近的工作转向生成式奖励模型(GenRMs),该模型在预测偏好之前生成推理过程。然而,在GenRM的训练和评估中,实践仍然只关注结果标签,而忽略了推理质量的检查。我们表明,推理保真度——GenRM的偏好决策与参考决策推理之间的一致性——可以高度预测下游RLHF的结果,超越了标准的标签准确率。具体来说,我们重新利用现有的奖励模型基准来计算虚假正确性(S-Corr)——即标签正确但推理与黄金标准判断不一致的决策比例。我们的实证评估表明,即使对于有竞争力的GenRM,也存在大量的S-Corr,并且更高的S-Corr与优化下的策略退化相关。为了提高保真度,我们提出了以推理为中心的对齐方法,R-Align,它通过黄金标准判断来增强训练,并显式地监督推理对齐。R-Align降低了RM基准上的S-Corr,并在STEM、编码、指令遵循和通用任务中实现了actor性能的持续提升。
🔬 方法详解
问题定义:论文旨在解决生成式奖励模型(GenRM)在训练和评估过程中忽略推理质量,导致模型决策的推理过程与人类判断不一致的问题。现有方法仅关注结果标签的准确性,无法保证模型推理的合理性,可能导致策略优化过程中的性能退化。
核心思路:论文的核心思路是通过显式地监督GenRM的推理过程,使其与人类的黄金标准判断对齐。通过引入“推理保真度”这一指标,衡量GenRM的偏好决策与参考决策推理之间的一致性,并以此为基础设计训练方法,提高模型的推理能力。
技术框架:R-Align方法的核心在于增强GenRM的训练过程,使其不仅关注结果标签的准确性,还要关注推理过程的合理性。具体来说,该方法利用现有的奖励模型基准,计算“虚假正确性”(S-Corr),即标签正确但推理错误的比例。然后,通过引入黄金标准判断,显式地监督GenRM的推理过程,使其与人类的判断对齐。
关键创新:该论文的关键创新在于提出了“推理保真度”这一概念,并将其应用于GenRM的训练和评估中。通过显式地监督推理过程,R-Align方法能够有效地提高GenRM的推理能力,从而提升下游RLHF任务的性能。与现有方法相比,R-Align方法更加关注模型的推理过程,而不仅仅是结果标签的准确性。
关键设计:R-Align方法的关键设计在于如何有效地监督GenRM的推理过程。具体来说,该方法利用黄金标准判断,通过引入额外的损失函数,显式地惩罚推理错误的决策。此外,该方法还采用了元学习的思想,通过在不同的任务上进行训练,提高模型的泛化能力。具体的损失函数和网络结构细节在论文中进行了详细描述,包括如何计算S-Corr以及如何将黄金标准判断融入到训练过程中。
📊 实验亮点
实验结果表明,R-Align方法能够有效降低RM基准上的S-Corr,并在STEM、编码、指令遵循和通用任务中实现了actor性能的持续提升。例如,在某些任务上,R-Align方法能够将actor的性能提升超过5%,显著优于现有的基线方法。这些结果表明,R-Align方法能够有效地提高GenRM的推理能力,从而提升下游RLHF任务的性能。
🎯 应用场景
该研究成果可广泛应用于需要高质量推理能力的大型语言模型对齐任务中,例如对话系统、智能助手、代码生成等领域。通过提高奖励模型的推理保真度,可以提升强化学习训练的稳定性和效果,最终提升LLM在各种实际应用中的性能和用户体验。该方法还有潜力应用于其他需要可解释性和可靠性的AI系统中。
📄 摘要(原文)
Reinforcement Learning from Human Feedback (RLHF) remains indispensable for aligning large language models (LLMs) in subjective domains. To enhance robustness, recent work shifts toward Generative Reward Models (GenRMs) that generate rationales before predicting preferences. Yet in GenRM training and evaluation, practice remains outcome-label-only, leaving reasoning quality unchecked. We show that reasoning fidelity-the consistency between a GenRM's preference decision and reference decision rationales-is highly predictive of downstream RLHF outcomes, beyond standard label accuracy. Specifically, we repurpose existing reward-model benchmarks to compute Spurious Correctness (S-Corr)-the fraction of label-correct decisions with rationales misaligned with golden judgments. Our empirical evaluation reveals substantial S-Corr even for competitive GenRMs, and higher S-Corr is associated with policy degeneration under optimization. To improve fidelity, we propose Rationale-Centric Alignment, R-Align, which augments training with gold judgments and explicitly supervises rationale alignment. R-Align reduces S-Corr on RM benchmarks and yields consistent gains in actor performance across STEM, coding, instruction following, and general tasks.