S2J: Bridging the Gap Between Solving and Judging Ability in Generative Reward Models

📄 arXiv: 2509.22099v1 📥 PDF

作者: Shaoning Sun, Jiachen Yu, Zongqi Wang, Xuewei Yang, Tianle Gu, Yujiu Yang

分类: cs.CL

发布日期: 2025-09-26


💡 一句话要点

提出S2J方法,弥合生成式奖励模型中求解能力与判断能力之间的差距

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式奖励模型 奖励建模 问题解决能力 判断能力 求解-判断差距 自我进化 监督学习

📋 核心要点

  1. 现有生成式奖励模型在问题解决能力强的情况下,对部分问题判断准确率仍有不足,存在求解-判断差距。
  2. S2J方法同时利用模型自身的求解和判断能力进行监督,显式关联问题解决和评估能力,缩小差距。
  3. 实验表明,S2J有效降低求解-判断差距,提升模型判断性能,并在小数据集上达到SOTA,无需外部模型蒸馏。

📝 摘要(中文)

随着大型语言模型(LLMs)的快速发展,生成式奖励模型(GRMs)已被广泛应用于奖励建模和评估。以往的研究主要集中于通过在偏好数据集上优化GRM,并将判断正确性作为监督信号来训练专门的GRM。虽然人们普遍认为具有更强问题解决能力的GRM通常表现出更优越的判断能力,但我们首先发现,在检查单个查询时,存在显著的求解-判断差距。具体而言,求解-判断差距指的是GRM在完全有能力解决某些查询的情况下,却难以对这些查询做出正确判断的现象(14%-37%)。在本文中,我们提出了Solve-to-Judge(S2J)方法来解决这个问题。具体来说,S2J同时利用单个GRM输出的求解和判断能力进行监督,从而在模型优化过程中显式地将GRM的问题解决能力和评估能力联系起来,从而缩小差距。我们全面的实验表明,S2J有效地将求解-判断差距缩小了16.2%,从而将模型的判断性能提高了5.8%。值得注意的是,S2J在基于相同基础模型构建的GRM中实现了最先进(SOTA)的性能,同时使用了明显更小的训练数据集。此外,S2J通过自我进化来实现这一点,而无需依赖更强大的外部模型进行蒸馏。

🔬 方法详解

问题定义:论文旨在解决生成式奖励模型(GRMs)在问题解决能力和判断能力之间存在的差距。即使GRM能够成功解决某个问题,它仍然可能无法正确判断其解决方案的优劣。这种“求解-判断差距”限制了GRM在奖励建模和评估中的有效性。现有方法主要关注于使用判断正确性作为监督信号来训练GRM,而忽略了利用GRM自身的求解能力来提升判断能力。

核心思路:S2J的核心思路是同时利用GRM的求解能力和判断能力进行监督,从而显式地将GRM的问题解决能力和评估能力联系起来。通过这种方式,模型可以学习到如何更好地利用其求解能力来指导判断过程,从而缩小求解-判断差距。这种方法鼓励模型在解决问题的同时,也学习如何评估解决方案的质量。

技术框架:S2J方法的技术框架主要包括以下几个步骤:1) 使用GRM生成问题的解决方案。2) 使用GRM评估生成的解决方案的质量。3) 使用问题的正确答案和解决方案的质量评估结果作为监督信号,同时优化GRM的求解能力和判断能力。这个过程可以迭代进行,以不断提升GRM的性能。整体流程是端到端的,没有复杂的模块划分。

关键创新:S2J最重要的技术创新点在于它同时利用了GRM的求解能力和判断能力进行监督。与以往只关注判断正确性的方法不同,S2J显式地将问题解决和评估能力联系起来,从而更有效地提升了GRM的性能。此外,S2J通过自我进化来实现性能提升,而无需依赖更强大的外部模型进行蒸馏,降低了计算成本。

关键设计:S2J的关键设计在于如何有效地结合求解和判断的监督信号。具体的技术细节(如损失函数、网络结构等)论文中可能没有详细说明,属于通用GRM的训练细节。关键在于设计合适的损失函数,使得模型既能学习生成正确的解决方案,又能学习评估解决方案的质量。参数设置方面,可能需要调整求解和判断损失的权重,以平衡两种能力的学习。

📊 实验亮点

S2J方法有效地将求解-判断差距缩小了16.2%,从而将模型的判断性能提高了5.8%。更重要的是,S2J在基于相同基础模型构建的GRM中实现了最先进(SOTA)的性能,同时使用了明显更小的训练数据集。这表明S2J方法在提升GRM性能的同时,还具有更高的效率和更低的成本。

🎯 应用场景

S2J方法可应用于各种需要奖励建模和评估的场景,例如强化学习、自然语言生成、代码生成等。通过提升GRM的判断能力,可以更准确地评估模型的输出质量,从而改进模型的训练和优化过程。该方法还有助于构建更可靠、更高效的AI系统,并降低对人工标注数据的依赖。

📄 摘要(原文)

With the rapid development of large language models (LLMs), generative reward models (GRMs) have been widely adopted for reward modeling and evaluation. Previous studies have primarily focused on training specialized GRMs by optimizing them on preference datasets with the judgment correctness as supervision. While it's widely accepted that GRMs with stronger problem-solving capabilities typically exhibit superior judgment abilities, we first identify a significant solve-to-judge gap when examining individual queries. Specifically, the solve-to-judge gap refers to the phenomenon where GRMs struggle to make correct judgments on some queries (14%-37%), despite being fully capable of solving them. In this paper, we propose the Solve-to-Judge (S2J) approach to address this problem. Specifically, S2J simultaneously leverages both the solving and judging capabilities on a single GRM's output for supervision, explicitly linking the GRM's problem-solving and evaluation abilities during model optimization, thereby narrowing the gap. Our comprehensive experiments demonstrate that S2J effectively reduces the solve-to-judge gap by 16.2%, thereby enhancing the model's judgment performance by 5.8%. Notably, S2J achieves state-of-the-art (SOTA) performance among GRMs built on the same base model while utilizing a significantly smaller training dataset. Moreover, S2J accomplishes this through self-evolution without relying on more powerful external models for distillation.