Better Process Supervision with Bi-directional Rewarding Signals

作者: Wenxiang Chen, Wei He, Zhiheng Xi, Honglin Guo, Boyang Hong, Jiazheng Zhang, Rui Zheng, Nijun Li, Tao Gui, Yun Li, Qi Zhang, Xuanjing Huang

分类: cs.CL

发布日期: 2025-03-06

💡 一句话要点

提出BiRM双向奖励模型，提升LLM推理过程监督的准确性和有效性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 过程监督 奖励模型 大语言模型 数学推理 A*算法 双向奖励 LLM推理

📋 核心要点

现有过程奖励模型(PRM)仅考虑单向奖励信号，缺乏对最终目标距离的建模，导致监督效果受限。
BiRM模型借鉴A*算法，同时评估已发生成本和到达目标的估计成本，提供更全面的过程监督信号。
实验结果表明，BiRM在数学推理任务上显著优于现有方法，提升了LLM推理过程监督的准确性。

📝 摘要（中文）

本文提出了一种新的过程监督模型BiRM，旨在解决现有过程奖励模型(PRM)的单向性问题，即仅关注当前步骤之前的奖励信号，而忽略了与最终目标的距离建模。BiRM借鉴A*算法的思想，同时考虑已发生的成本和到达目标的估计成本，从而更精确地评估LLM推理步骤的正确性，并建模未来成功的概率。在数学推理任务上的大量实验表明，BiRM能够提供更全面的指导，在Gaokao2023数据集上，使用Best-of-N抽样方法，BiRM相比PRM提升了3.1%；在MATH-500数据集上，BiRM相比ORM提升了5.0%，相比PRM提升了3.8%。

🔬 方法详解

问题定义：现有过程监督方法，如过程奖励模型(PRM)，主要关注当前步骤之前的奖励信号，是一种单向的监督方式。这种方法忽略了与最终目标的距离，无法有效建模未来成功的可能性。因此，在复杂的LLM推理过程中，PRM的监督效果受到限制，难以提供精确的指导。

核心思路：本文的核心思路是借鉴A算法，将过程监督视为一个搜索问题。A算法同时考虑已发生的成本（g(n)）和到达目标的估计成本（h(n)）。BiRM模型模仿这一思想，不仅评估当前步骤的正确性（类似g(n)），还预测未来步骤成功的概率（类似h(n)），从而提供更全面的监督信号。这样可以更有效地引导LLM朝着正确的方向推理。

技术框架：BiRM模型的整体框架包含两个主要部分：前向评估模块和后向预测模块。前向评估模块负责评估当前步骤的正确性，类似于传统的PRM。后向预测模块则负责预测从当前步骤到达最终目标的概率。这两个模块的输出被结合起来，形成最终的奖励信号。在训练过程中，BiRM模型通过最大化正确推理路径的奖励信号来学习。

关键创新：BiRM的关键创新在于引入了后向预测模块，从而实现了双向的奖励信号。与传统的PRM相比，BiRM不仅关注已经完成的步骤，还考虑了未来的可能性。这种双向的监督方式能够更有效地引导LLM进行推理，尤其是在复杂的任务中。

关键设计：BiRM的具体实现细节包括：使用Transformer模型作为前向评估模块和后向预测模块的基础架构；使用交叉熵损失函数来训练前向评估模块，使其能够准确评估当前步骤的正确性；使用序列到序列模型来训练后向预测模块，使其能够预测从当前步骤到达最终目标的概率；使用加权平均的方式将前向评估模块和后向预测模块的输出结合起来，形成最终的奖励信号。权重的选择可以根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，BiRM在数学推理任务上取得了显著的提升。在Gaokao2023数据集上，使用Best-of-N抽样方法，BiRM相比PRM提升了3.1%。在MATH-500数据集上，BiRM相比ORM提升了5.0%，相比PRM提升了3.8%。这些结果表明，BiRM能够提供更精确的过程监督，从而提高LLM的推理能力。

🎯 应用场景

BiRM模型可广泛应用于需要复杂推理的大语言模型应用场景，例如数学问题求解、代码生成、知识图谱推理等。通过提供更精确的过程监督，BiRM可以提高LLM的推理能力和生成质量，降低错误率，并提升用户体验。此外，BiRM还可以应用于搜索策略，引导LLM探索更有效的推理路径。

📄 摘要（原文）

Process supervision, i.e., evaluating each step, is critical for complex large language model (LLM) reasoning and test-time searching with increased inference compute. Existing approaches, represented by process reward models (PRMs), primarily focus on rewarding signals up to the current step, exhibiting a one-directional nature and lacking a mechanism to model the distance to the final target. To address this problem, we draw inspiration from the A* algorithm, which states that an effective supervisory signal should simultaneously consider the incurred cost and the estimated cost for reaching the target. Building on this key insight, we introduce BiRM, a novel process supervision model that not only evaluates the correctness of previous steps but also models the probability of future success. We conduct extensive experiments on mathematical reasoning tasks and demonstrate that BiRM provides more precise evaluations of LLM reasoning steps, achieving an improvement of 3.1% on Gaokao2023 over PRM under the Best-of-N sampling method. Besides, in search-based strategies, BiRM provides more comprehensive guidance and outperforms ORM by 5.0% and PRM by 3.8% respectively on MATH-500.

Better Process Supervision with Bi-directional Rewarding Signals

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理