PairJudge RM: Perform Best-of-N Sampling with Knockout Tournament

📄 arXiv: 2501.13007v2 📥 PDF

作者: Yantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li

分类: cs.CL

发布日期: 2025-01-22 (更新: 2025-02-19)

备注: in progress work


💡 一句话要点

提出PairJudge RM,结合淘汰赛机制,提升大语言模型Best-of-N采样效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 奖励模型 Best-of-N采样 配对判断 淘汰赛

📋 核心要点

  1. 传统奖励模型评分随意且不一致,限制了Best-of-N采样在大语言模型中的效果。
  2. PairJudge RM通过配对判断候选解的正确性,结合淘汰赛机制,避免了绝对评分的偏差。
  3. 实验表明,PairJudge RM在数学问题求解任务上显著优于基线模型,尤其在难题上提升明显。

📝 摘要(中文)

Best-of-N (BoN)采样是一种常用的大语言模型测试时扩展策略,它依赖于奖励模型从多个生成结果中选择最佳候选解。然而,传统的奖励模型通常分配任意且不一致的分数,限制了其有效性。为了解决这个问题,我们提出了一种配对判断奖励模型(PairJudge RM),并结合淘汰赛机制用于BoN采样。PairJudge RM不分配绝对分数,而是同时判断两个候选解的正确性,并进行思维链推理。这种方法消除了评分的需要,并通过并行判断实现了解的交叉验证。在淘汰赛中,PairJudge RM在候选解之间进行两两判断,并迭代地淘汰不正确的解。我们构建了一个大规模的配对判断数据集PairJudge-432K,该数据集包含从NumiaMath派生的432K个配对判断,并使用 exttt{gemini-1.5-flash}进行标注,并通过监督微调训练PairJudge RM。在MATH-500和Olympiad Bench上的实验表明,相对于基线奖励模型,性能得到了显著提高。在前50%的难题上,实现了40%到60%的相对改进。

🔬 方法详解

问题定义:论文旨在解决大语言模型在Best-of-N采样中,传统奖励模型评分不准确、不一致的问题。现有奖励模型给出的绝对分数难以反映解题质量的真实情况,导致无法有效选出最优解,尤其是在复杂问题上表现更差。

核心思路:论文的核心思路是使用配对判断替代绝对评分。PairJudge RM不是给每个候选解打分,而是两两比较,判断哪个解更正确。这种相对判断的方式更加稳定可靠,能够有效区分解题质量的优劣。同时,结合淘汰赛机制,逐步筛选出最佳解。

技术框架:整体框架包含两个主要部分:PairJudge RM的训练和基于淘汰赛的BoN采样。首先,使用大规模配对判断数据集PairJudge-432K对PairJudge RM进行监督微调。然后,在测试阶段,对于每个问题,大语言模型生成N个候选解,PairJudge RM通过淘汰赛的方式,两两比较候选解,最终选出最佳解。淘汰赛的每一轮,PairJudge RM都会进行多轮判断,以确保判断的准确性。

关键创新:最重要的技术创新点在于使用配对判断替代绝对评分。与传统奖励模型不同,PairJudge RM不依赖于绝对分数,而是通过比较两个解的正确性来做出判断。这种方法更加鲁棒,能够有效应对奖励模型评分偏差的问题。此外,结合淘汰赛机制,可以逐步筛选出最佳解,提高BoN采样的效果。

关键设计:PairJudge RM使用Transformer架构,输入是两个候选解和问题描述,输出是哪个解更正确。训练数据PairJudge-432K由NumiaMath数据集生成,使用 exttt{gemini-1.5-flash}进行标注。损失函数采用交叉熵损失,优化目标是最大化判断的准确率。淘汰赛的轮数和每轮判断的次数是重要的超参数,需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,PairJudge RM在MATH-500和Olympiad Bench上显著优于基线奖励模型。在前50%的难题上,实现了40%到60%的相对改进。这表明PairJudge RM能够有效提高大语言模型在复杂问题上的求解能力。此外,消融实验也验证了配对判断和淘汰赛机制的有效性。

🎯 应用场景

该研究成果可广泛应用于需要大语言模型进行问题求解的领域,例如数学、编程、推理等。通过提高BoN采样的效果,可以显著提升大语言模型在这些领域的性能和可靠性。此外,配对判断的思想也可以应用于其他任务,例如文本摘要、机器翻译等,提高模型的生成质量。

📄 摘要(原文)

Best-of-N (BoN) sampling, a common strategy for test-time scaling of Large Language Models (LLMs), relies on reward models to select the best candidate solution from multiple generations. However, traditional reward models often assign arbitrary and inconsistent scores, limiting their effectiveness. To address this, we propose a Pairwise Judge Reward Model (PariJudge RM) combined with a knockout tournament for BoN sampling. Instead of assigning absolute scores, given one math problem, PariJudge RM judges two candidate solutions' correctness with chain-of-thought reasoning simultaneously. This approach eliminates the need for scoring and enables cross-validation of solutions through parallel judgment. In the knockout tournament, PariJudge RM conducts pairwise Judgment between candidate solutions and eliminates the incorrect ones iteratively. We construct PairJudge-432K, a large-scale dataset of 432K pairwise judgments derived from NumiaMath and annotated using \texttt{gemini-1.5-flash}, and train the PariJudge RM via supervised fine-tuning. Experiments on MATH-500 and the Olympiad Bench demonstrate significant improvements over baseline reward models. And a 40\% to 60\% relative improvement is achieved on the top 50\% challenging problems.