Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning
作者: Amrith Setlur, Chirag Nagpal, Adam Fisch, Xinyang Geng, Jacob Eisenstein, Rishabh Agarwal, Alekh Agarwal, Jonathan Berant, Aviral Kumar
分类: cs.LG, cs.CL
发布日期: 2024-10-10
💡 一句话要点
提出过程优势验证器(PAV),通过奖励进步来提升LLM推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理能力 过程奖励模型 强化学习 优势函数 过程优势验证器 自动化验证 奖励设计
📋 核心要点
- 现有基于过程奖励模型(PRM)提升LLM推理的方法依赖人工标注或自动标注数据,但前者成本高昂,后者效果有限。
- 论文提出过程优势验证器(PAV),核心思想是过程奖励应衡量每一步的“进步”,即采取该步骤后产生正确结果概率的提升。
- 实验表明,PAV在测试时搜索中准确率提升>8%,计算效率提升1.5-5倍;在线RL中样本效率提升5-6倍,准确率提升>6%。
📝 摘要(中文)
本文提出了一种改进大型语言模型推理能力的方法,即使用过程奖励模型(PRM)。PRM在多步推理过程的每一步提供反馈,相比仅在最后一步提供反馈的结果奖励模型(ORM),PRM可能改善信用分配。然而,收集密集的、每一步的人工标注是不可扩展的,并且从自动标注数据训练PRM迄今为止收效甚微。为了通过PRM进行搜索或将其用作强化学习(RL)的密集奖励来改进基础策略,我们提出了问题:“我们应该如何设计过程奖励?”。我们的关键见解是,有效的过程奖励应该衡量进步:采取该步骤前后,产生正确响应的可能性的变化,对应于RL中步级优势的概念。至关重要的是,这种进步应该在与基础策略不同的证明者策略下衡量。我们在理论上描述了良好证明者的集合,结果表明,优化来自此类证明者的过程奖励可以改善测试时搜索和在线RL期间的探索。事实上,我们的表征表明,较弱的证明者策略可以大大改善较强的基础策略,这也是我们在经验上观察到的。我们通过训练过程优势验证器(PAV)来预测此类证明者下的进步来验证我们的主张,并表明与ORM相比,针对PAV的测试时搜索的准确率提高了>8%,计算效率提高了1.5-5倍。使用来自PAV的密集奖励进行在线RL,实现了在样本效率方面提高5-6倍,准确率提高>6%的首批结果之一,优于ORM。
🔬 方法详解
问题定义:现有方法在利用过程奖励模型(PRM)提升大型语言模型(LLM)的推理能力时,面临着标注数据获取的难题。人工标注成本高昂且难以扩展,而使用自动标注数据训练的PRM效果往往不佳,无法有效指导LLM的推理过程。因此,如何设计有效的过程奖励,以提升LLM的推理能力,是本文要解决的核心问题。
核心思路:论文的核心思路是,过程奖励应该衡量每一步推理的“进步”,即采取该步骤后,LLM产生正确最终结果的概率提升。这种“进步”的衡量,不是基于当前策略,而是基于一个独立的“证明者”策略。通过优化基于“证明者”策略的过程奖励,可以更有效地指导LLM的探索和学习,从而提升推理能力。这种设计借鉴了强化学习中优势函数的概念,旨在奖励那些能够带来积极改变的步骤。
技术框架:整体框架包含以下几个主要模块:1) 基础策略模型:待优化的LLM推理策略。2) 证明者策略模型:用于评估每一步推理“进步”的独立策略。3) 过程优势验证器(PAV):一个训练好的模型,用于预测在证明者策略下,每一步推理带来的“进步”。4) 搜索/强化学习模块:利用PAV提供的奖励信号,通过搜索或强化学习算法,优化基础策略模型。流程上,首先训练一个或多个“证明者”策略,然后利用这些策略训练PAV,最后使用PAV指导基础策略的优化。
关键创新:最重要的技术创新点在于提出了“过程优势验证器(PAV)”的概念,并将其用于衡量每一步推理的“进步”。与传统的基于结果的奖励模型(ORM)相比,PAV能够提供更细粒度的反馈,从而更好地指导LLM的推理过程。此外,使用独立的“证明者”策略来评估“进步”,可以避免奖励信号被基础策略的偏差所影响,从而提升学习的效率和效果。
关键设计:论文的关键设计包括:1) 证明者策略的选择:理论分析表明,选择合适的证明者策略至关重要。论文给出了选择“良好”证明者策略的理论指导。2) PAV的训练:PAV被训练成一个回归模型,用于预测在给定状态和动作下,证明者策略下产生的“进步”。3) 奖励函数的设计:奖励函数基于PAV的输出,用于指导搜索或强化学习过程。具体的奖励函数形式可以根据不同的应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与基于结果的奖励模型(ORM)相比,使用过程优势验证器(PAV)进行测试时搜索,准确率提高了>8%,计算效率提高了1.5-5倍。在线强化学习(RL)实验中,使用PAV提供的密集奖励,样本效率提高了5-6倍,准确率提高了>6%。这些结果充分验证了PAV的有效性。
🎯 应用场景
该研究成果可广泛应用于需要复杂推理能力的自然语言处理任务中,例如数学问题求解、常识推理、代码生成等。通过提升LLM的推理能力,可以提高这些任务的准确性和效率,从而在教育、科研、工程等领域产生重要的实际价值和未来影响。
📄 摘要(原文)
A promising approach for improving reasoning in large language models is to use process reward models (PRMs). PRMs provide feedback at each step of a multi-step reasoning trace, potentially improving credit assignment over outcome reward models (ORMs) that only provide feedback at the final step. However, collecting dense, per-step human labels is not scalable, and training PRMs from automatically-labeled data has thus far led to limited gains. To improve a base policy by running search against a PRM or using it as dense rewards for reinforcement learning (RL), we ask: "How should we design process rewards?". Our key insight is that, to be effective, the process reward for a step should measure progress: a change in the likelihood of producing a correct response in the future, before and after taking the step, corresponding to the notion of step-level advantages in RL. Crucially, this progress should be measured under a prover policy distinct from the base policy. We theoretically characterize the set of good provers and our results show that optimizing process rewards from such provers improves exploration during test-time search and online RL. In fact, our characterization shows that weak prover policies can substantially improve a stronger base policy, which we also observe empirically. We validate our claims by training process advantage verifiers (PAVs) to predict progress under such provers, and show that compared to ORMs, test-time search against PAVs is $>8\%$ more accurate, and $1.5-5\times$ more compute-efficient. Online RL with dense rewards from PAVs enables one of the first results with $5-6\times$ gain in sample efficiency, and $>6\%$ gain in accuracy, over ORMs.