The Lessons of Developing Process Reward Models in Mathematical Reasoning

作者: Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-01-13 (更新: 2025-06-05)

💡 一句话要点

针对数学推理中过程奖励模型，提出共识过滤机制并改进评估框架，提升模型性能和数据效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 过程奖励模型 数学推理 大语言模型 过程监督 共识过滤

📋 核心要点

现有过程奖励模型在数据标注和评估方面存在挑战，蒙特卡洛估计数据合成效果不佳，且Best-of-N评估策略存在偏差。
提出共识过滤机制，结合蒙特卡洛估计和LLM-as-a-judge，并倡导结合响应级别和步骤级别的综合评估框架。
实验表明，该方法显著提高了BoN评估和逐步错误识别任务中的模型性能和数据效率，并发布了新的state-of-the-art PRM。

📝 摘要（中文）

过程奖励模型(PRM)作为大语言模型(LLM)数学推理中过程监督的一种有前景的方法，旨在识别和减轻推理过程中的中间错误。然而，有效PRM的开发面临重大挑战，尤其是在数据标注和评估方法方面。本文通过大量实验表明，常用的基于蒙特卡洛(MC)估计的数据合成方法通常会产生比LLM-as-a-judge和人工标注方法更差的性能和泛化能力。MC估计依赖于补全模型来评估当前步骤的正确性，导致不准确的步骤验证。此外，我们发现传统Best-of-N (BoN)评估策略中存在潜在偏差：(1)不可靠的策略模型生成具有正确答案但过程有缺陷的响应，导致BoN的评估标准与PRM的过程验证目标不一致。(2)PRM对此类响应的容忍导致BoN分数膨胀。(3)现有的PRM在最后答案步骤中集中了很大比例的最小分数，揭示了BoN优化PRM中从过程到基于结果的评估的转变。为了应对这些挑战，我们开发了一种共识过滤机制，有效地将MC估计与LLM-as-a-judge相结合，并提倡一个更全面的评估框架，该框架结合了响应级别和步骤级别的指标。基于这些机制，我们显著提高了BoN评估和逐步错误识别任务中的模型性能和数据效率。最后，我们发布了一个新的最先进的PRM，它优于现有的开源替代方案，并为未来构建过程监督模型的研究提供了实践指导。

🔬 方法详解

问题定义：论文旨在解决大语言模型在数学推理过程中，过程奖励模型（PRM）训练数据质量不高和评估方法存在偏差的问题。现有方法，特别是基于蒙特卡洛（MC）估计的数据合成方法，依赖于不完美的补全模型来评估中间步骤的正确性，导致数据质量差。同时，Best-of-N (BoN) 评估策略容易受到策略模型生成“答案正确但过程错误”的响应的影响，使得PRM的优化目标偏离了过程验证。

核心思路：论文的核心思路是通过引入共识过滤机制来提高训练数据的质量，并改进评估框架以更准确地反映PRM的性能。共识过滤机制结合了MC估计和LLM-as-a-judge的优点，旨在过滤掉MC估计中不准确的标注。改进的评估框架则同时考虑响应级别和步骤级别的指标，以更全面地评估PRM的性能。

技术框架：论文的技术框架主要包括三个部分：数据合成、模型训练和模型评估。数据合成阶段，首先使用MC估计生成初始数据，然后使用共识过滤机制过滤数据。模型训练阶段，使用过滤后的数据训练PRM。模型评估阶段，使用改进的评估框架，包括响应级别和步骤级别的指标，评估PRM的性能。

关键创新：论文的关键创新在于提出了共识过滤机制和改进的评估框架。共识过滤机制有效地提高了训练数据的质量，解决了MC估计数据合成方法的固有缺陷。改进的评估框架更准确地反映了PRM的性能，避免了BoN评估策略的偏差。

关键设计：共识过滤机制的关键设计在于如何有效地结合MC估计和LLM-as-a-judge。具体来说，对于每个步骤，MC估计给出一个正确性判断，同时LLM-as-a-judge也给出一个判断。只有当两个判断一致时，该步骤才被认为是正确的。改进的评估框架的关键设计在于如何定义响应级别和步骤级别的指标。响应级别指标包括答案的正确率，步骤级别指标包括每个步骤的正确率和错误类型。

🖼️ 关键图片

📊 实验亮点

论文通过实验证明，提出的共识过滤机制和改进的评估框架能够显著提高PRM的性能和数据效率。例如，在BoN评估中，使用共识过滤机制训练的PRM优于使用传统MC估计训练的PRM。此外，新发布的state-of-the-art PRM也优于现有的开源替代方案，表明了该方法的有效性。

🎯 应用场景

该研究成果可应用于提升大语言模型在数学、科学等领域的推理能力，尤其是在需要过程监督的场景下。通过更准确地识别和纠正推理过程中的错误，可以提高模型的可靠性和可解释性。此外，该方法也可推广到其他需要过程监督的任务中，例如代码生成、文本摘要等。

📄 摘要（原文）

Process Reward Models (PRMs) emerge as a promising approach for process supervision in mathematical reasoning of Large Language Models (LLMs), which aim to identify and mitigate intermediate errors in the reasoning processes. However, the development of effective PRMs faces significant challenges, particularly in data annotation and evaluation methodologies. In this paper, through extensive experiments, we demonstrate that commonly used Monte Carlo (MC) estimation-based data synthesis for PRMs typically yields inferior performance and generalization compared to LLM-as-a-judge and human annotation methods. MC estimation relies on completion models to evaluate current-step correctness, leading to inaccurate step verification. Furthermore, we identify potential biases in conventional Best-of-N (BoN) evaluation strategies for PRMs: (1) The unreliable policy models generate responses with correct answers but flawed processes, leading to a misalignment between the evaluation criteria of BoN and the PRM objectives of process verification. (2) The tolerance of PRMs of such responses leads to inflated BoN scores. (3) Existing PRMs have a significant proportion of minimum scores concentrated on the final answer steps, revealing the shift from process to outcome-based assessment in BoN Optimized PRMs. To address these challenges, we develop a consensus filtering mechanism that effectively integrates MC estimation with LLM-as-a-judge and advocates a more comprehensive evaluation framework that combines response-level and step-level metrics. Based on the mechanisms, we significantly improve both model performance and data efficiency in the BoN evaluation and the step-wise error identification task. Finally, we release a new state-of-the-art PRM that outperforms existing open-source alternatives and provides practical guidelines for future research in building process supervision models.

The Lessons of Developing Process Reward Models in Mathematical Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理