Generative Verifiers: Reward Modeling as Next-Token Prediction

📄 arXiv: 2408.15240v3 📥 PDF

作者: Lunjun Zhang, Arian Hosseini, Hritik Bansal, Mehran Kazemi, Aviral Kumar, Rishabh Agarwal

分类: cs.LG

发布日期: 2024-08-27 (更新: 2025-02-22)

备注: ICLR 2025


💡 一句话要点

提出生成式验证器(GenRM),利用下一token预测目标提升LLM推理性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式验证器 奖励模型 下一token预测 大型语言模型 推理验证

📋 核心要点

  1. 现有基于LLM的验证器通常训练为判别分类器,忽略了LLM强大的文本生成能力。
  2. 提出生成式验证器(GenRM),利用下一token预测目标,联合训练验证和解生成,充分利用LLM的生成能力。
  3. 实验表明,GenRM在多个任务上显著优于判别式验证器和LLM-as-a-Judge,尤其在使用Best-of-N方法时。

📝 摘要(中文)

验证器或奖励模型常用于增强大型语言模型(LLM)的推理性能。一种常见方法是Best-of-N,即由LLM生成N个候选解,然后由验证器对它们进行排序,并选择最佳解。虽然基于LLM的验证器通常被训练为判别分类器来对解进行评分,但它们没有利用预训练LLM的文本生成能力。为了克服这个限制,我们提出使用无处不在的下一token预测目标来训练验证器,联合进行验证和解生成。与标准验证器相比,这种生成式验证器(GenRM)可以受益于LLM的几个优势:它们与指令微调无缝集成,支持思维链推理,并且可以利用额外的测试时计算,通过多数投票来实现更好的验证。我们证明了GenRM优于判别式DPO验证器和LLM-as-a-Judge,从而在使用Best-of-N时获得了巨大的性能提升,在算法任务上从5%提升到45.3%,在GSM8K上从73%提升到93.4%。在由易到难的泛化设置中,我们观察到MATH上的改进为28%到44.6%,MMLU抽象代数上的改进为37.9%到53.5%。此外,我们发现使用合成验证理由训练GenRM足以挑选出数学问题中的细微错误。最后,我们证明了GenRM随着模型大小和测试时计算的增加而表现良好。

🔬 方法详解

问题定义:论文旨在解决如何更有效地利用大型语言模型(LLM)的潜力来验证和改进其自身的推理能力的问题。现有方法,如判别式验证器,将验证任务视为分类问题,忽略了LLM强大的生成能力,无法充分利用预训练的知识和推理能力。这些方法在复杂推理任务中表现受限,难以捕捉细微的错误。

核心思路:论文的核心思路是将验证任务转化为生成任务,利用LLM固有的下一token预测能力。通过联合训练验证和解生成,GenRM能够更好地理解问题的上下文,并生成更具解释性的验证理由。这种方法允许GenRM无缝集成指令微调,并利用思维链推理来提高验证的准确性。

技术框架:GenRM的整体框架包括以下几个主要阶段:1) LLM生成N个候选解;2) GenRM对每个候选解进行验证,生成验证理由并给出评分;3) 使用多数投票或选择评分最高的解作为最终结果。GenRM的训练过程包括使用下一token预测目标,联合训练验证和解生成。在测试阶段,可以通过增加计算资源(例如,增加候选解的数量)来进一步提高验证的准确性。

关键创新:最重要的技术创新点是将验证任务转化为生成任务,利用LLM的下一token预测能力。与传统的判别式验证器相比,GenRM能够更好地利用LLM的预训练知识和推理能力,生成更具解释性的验证理由,从而提高验证的准确性。此外,GenRM可以无缝集成指令微调和思维链推理,进一步增强其验证能力。

关键设计:GenRM的关键设计包括:1) 使用下一token预测目标进行训练;2) 联合训练验证和解生成;3) 利用思维链推理生成验证理由;4) 使用多数投票或选择评分最高的解作为最终结果。论文还探索了使用合成验证理由进行训练的方法,发现这种方法足以挑选出数学问题中的细微错误。具体的参数设置和网络结构细节在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GenRM在算法任务上将Best-of-N的性能从5%提升到45.3%,在GSM8K上从73%提升到93.4%。在MATH和MMLU抽象代数等泛化任务上,GenRM也取得了显著的改进,分别提升了28%到44.6%和37.9%到53.5%。这些结果表明,GenRM能够有效地提高LLM的推理和验证能力。

🎯 应用场景

该研究成果可广泛应用于需要高质量推理和验证的领域,例如自动代码生成、数学问题求解、科学研究等。GenRM可以提高LLM在这些领域的可靠性和准确性,减少错误和幻觉,并促进LLM在实际应用中的部署。

📄 摘要(原文)

Verifiers or reward models are often used to enhance the reasoning performance of large language models (LLMs). A common approach is the Best-of-N method, where N candidate solutions generated by the LLM are ranked by a verifier, and the best one is selected. While LLM-based verifiers are typically trained as discriminative classifiers to score solutions, they do not utilize the text generation capabilities of pretrained LLMs. To overcome this limitation, we instead propose training verifiers using the ubiquitous next-token prediction objective, jointly on verification and solution generation. Compared to standard verifiers, such generative verifiers (GenRM) can benefit from several advantages of LLMs: they integrate seamlessly with instruction tuning, enable chain-of-thought reasoning, and can utilize additional test-time compute via majority voting for better verification. We demonstrate that GenRM outperforms discriminative, DPO verifiers, and LLM-as-a-Judge, resulting in large performance gains with Best-of-N, namely 5% $\rightarrow$ 45.3% on algorithmic tasks and 73% $\rightarrow$ 93.4% on GSM8K. In easy-to-hard generalization settings, we observe improvements of 28% $\rightarrow$ 44.6% on MATH, and 37.9% $\rightarrow$ 53.5% on MMLU abstract algebra. Furthermore, we find that training GenRM with synthetic verification rationales is sufficient to pick out subtle errors on math problems. Finally, we demonstrate that GenRM scales favorably with model size and test-time compute.