S2J: Bridging the Gap Between Solving and Judging Ability in Generative Reward Models
作者: Shaoning Sun, Jiachen Yu, Zongqi Wang, Xuewei Yang, Tianle Gu, Yujiu Yang
分类: cs.CL
发布日期: 2025-09-26
💡 一句话要点
提出S2J方法,弥合生成式奖励模型中求解能力与判断能力之间的差距
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成式奖励模型 奖励建模 求解-判断差距 自我进化 监督学习
📋 核心要点
- 现有生成式奖励模型在问题解决能力强的情况下,对部分问题判断准确率仍有不足,存在“求解-判断差距”。
- S2J方法同时利用模型输出的求解和判断能力进行监督,显式关联问题解决和评估能力,以缩小差距。
- 实验表明,S2J有效降低了求解-判断差距,提升了模型判断性能,并在小数据集上实现了SOTA性能。
📝 摘要(中文)
随着大型语言模型(LLMs)的快速发展,生成式奖励模型(GRMs)已被广泛应用于奖励建模和评估。以往的研究主要集中于通过在偏好数据集上优化GRM,并将判断正确性作为监督信号来训练专门的GRM。虽然人们普遍认为具有更强问题解决能力的GRM通常表现出更优越的判断能力,但我们首先发现,在检查单个查询时,存在显著的求解-判断差距。具体来说,求解-判断差距指的是GRM在能够完全解决某些查询的情况下,却难以对这些查询做出正确判断的现象(14%-37%)。在本文中,我们提出了Solve-to-Judge(S2J)方法来解决这个问题。具体来说,S2J同时利用单个GRM输出的求解和判断能力进行监督,从而在模型优化过程中显式地将GRM的问题解决能力和评估能力联系起来,从而缩小差距。我们全面的实验表明,S2J有效地减少了16.2%的求解-判断差距,从而将模型的判断性能提高了5.8%。值得注意的是,S2J在基于相同基础模型构建的GRM中实现了最先进(SOTA)的性能,同时使用了明显更小的训练数据集。此外,S2J通过自我进化来实现这一点,而无需依赖更强大的外部模型进行知识蒸馏。
🔬 方法详解
问题定义:论文旨在解决生成式奖励模型(GRMs)中存在的“求解-判断差距”问题。即使GRM具备解决特定问题的能力,它仍然可能无法正确判断该问题的答案的优劣。现有方法主要关注优化GRM的判断能力,而忽略了GRM本身的问题解决能力,导致二者之间存在脱节。
核心思路:S2J的核心思路是同时利用GRM的求解能力和判断能力进行监督训练,将二者显式地联系起来。通过这种方式,模型不仅学习如何判断答案的优劣,还学习如何利用其问题解决能力来辅助判断,从而缩小求解-判断差距。
技术框架:S2J方法主要包含以下步骤:1)使用GRM生成问题的答案;2)使用GRM对生成的答案进行评估;3)利用问题的正确答案和评估结果,同时监督GRM的求解和判断能力。具体来说,求解能力的监督通过比较生成的答案和正确答案来实现,判断能力的监督通过比较GRM的评估结果和基于正确答案的评估结果来实现。
关键创新:S2J的关键创新在于它同时利用GRM的求解和判断能力进行监督,从而显式地将二者联系起来。与以往只关注优化判断能力的方法不同,S2J充分利用了GRM自身的问题解决能力,从而更有效地缩小了求解-判断差距。此外,S2J通过自我进化实现性能提升,无需依赖外部更强大的模型进行知识蒸馏。
关键设计:S2J的具体实现细节包括:1)使用交叉熵损失函数来监督GRM的求解能力;2)使用均方误差损失函数来监督GRM的判断能力;3)使用加权平均的方式将两个损失函数结合起来,共同优化GRM。权重参数的选择需要根据具体任务进行调整,以平衡求解能力和判断能力之间的关系。论文中未明确给出具体的网络结构细节,但强调了S2J方法可以应用于各种基于Transformer的GRM。
🖼️ 关键图片
📊 实验亮点
S2J方法在实验中有效降低了16.2%的求解-判断差距,并将模型的判断性能提高了5.8%。更重要的是,S2J在基于相同基础模型构建的GRM中实现了SOTA性能,同时使用了明显更小的训练数据集。这表明S2J方法能够更有效地利用数据,提高模型的性能。
🎯 应用场景
S2J方法可应用于各种需要奖励建模和评估的场景,例如强化学习、自然语言生成、代码生成等。通过提高奖励模型的判断准确性,可以更有效地训练智能体,生成更高质量的文本或代码。该方法尤其适用于资源受限的场景,因为它不需要依赖更强大的外部模型进行知识蒸馏。
📄 摘要(原文)
With the rapid development of large language models (LLMs), generative reward models (GRMs) have been widely adopted for reward modeling and evaluation. Previous studies have primarily focused on training specialized GRMs by optimizing them on preference datasets with the judgment correctness as supervision. While it's widely accepted that GRMs with stronger problem-solving capabilities typically exhibit superior judgment abilities, we first identify a significant solve-to-judge gap when examining individual queries. Specifically, the solve-to-judge gap refers to the phenomenon where GRMs struggle to make correct judgments on some queries (14%-37%), despite being fully capable of solving them. In this paper, we propose the Solve-to-Judge (S2J) approach to address this problem. Specifically, S2J simultaneously leverages both the solving and judging capabilities on a single GRM's output for supervision, explicitly linking the GRM's problem-solving and evaluation abilities during model optimization, thereby narrowing the gap. Our comprehensive experiments demonstrate that S2J effectively reduces the solve-to-judge gap by 16.2%, thereby enhancing the model's judgment performance by 5.8%. Notably, S2J achieves state-of-the-art (SOTA) performance among GRMs built on the same base model while utilizing a significantly smaller training dataset. Moreover, S2J accomplishes this through self-evolution without relying on more powerful external models for distillation.