From Outcomes to Processes: Guiding PRM Learning from ORM for Inference-Time Alignment

作者: Bin Xie, Bingbing Xu, Yige Yuan, Shengmao Zhu, Huawei Shen

分类: cs.CL

发布日期: 2025-06-14 (更新: 2025-06-28)

💡 一句话要点

提出SP-PRM框架，通过过程奖励模型提升LLM推理时对齐效果

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理时对齐 奖励引导搜索 过程奖励模型 评分一致性 偏好一致性 人机对齐 强化学习

📋 核心要点

现有基于结果奖励模型(ORM)的奖励引导搜索(RGS)方法，在过程奖励的指导下，存在评分粒度不一致的问题。
论文提出SP-PRM框架，核心思想是构建满足评分一致性和偏好一致性的过程奖励模型(PRM)，从而更有效地指导RGS。
实验结果表明，SP-PRM在对话、摘要和推理任务上显著提升了RGS方法的性能，GPT-4评估分数提升3.6%-10.3%。

📝 摘要（中文）

推理时对齐方法因其在使大型语言模型（LLM）与人类偏好对齐方面的效率和有效性而备受关注。然而，目前主流的使用奖励引导搜索（RGS）的方法主要依赖于结果奖励模型（ORM），这存在一个关键的粒度不匹配问题：ORM旨在为完整的响应提供结果奖励，而RGS方法依赖于过程奖励来指导策略，导致评分不一致和次优对齐。为了解决这个挑战，我们将过程奖励模型（PRM）引入RGS，并认为理想的PRM应该满足两个目标：评分一致性，确保跨部分和完整响应的连贯评估；偏好一致性，使部分序列评估与人类偏好对齐。基于此，我们提出SP-PRM，一种新颖的双一致性框架，集成了基于评分一致性和基于偏好一致性的部分评估模块，而无需依赖人工标注。在对话、摘要和推理任务上的大量实验表明，SP-PRM显著增强了现有的RGS方法，在所有任务中，GPT-4评估分数提高了3.6%-10.3%。

🔬 方法详解

问题定义：现有基于结果奖励模型（ORM）的奖励引导搜索（RGS）方法，在推理时对齐大型语言模型（LLM）时，存在一个关键问题：ORM为完整响应提供奖励，而RGS需要过程奖励来指导策略。这种粒度不匹配导致评分不一致，最终影响对齐效果。现有方法缺乏对生成过程的细粒度控制，无法有效利用人类偏好信息。

核心思路：论文的核心思路是引入过程奖励模型（PRM），并确保该PRM同时满足两个关键属性：评分一致性和偏好一致性。评分一致性保证PRM对部分生成序列和完整序列的评分是连贯的，避免出现评分突变；偏好一致性保证PRM对部分序列的评估与人类的偏好相符。通过构建这样的PRM，可以更有效地指导RGS，从而提升LLM的对齐效果。这样设计的目的是为了弥补ORM的不足，提供更细粒度的奖励信号。

技术框架：SP-PRM框架包含两个主要模块：基于评分一致性的部分评估模块和基于偏好一致性的部分评估模块。这两个模块共同作用，训练出一个既能保证评分连贯性，又能与人类偏好对齐的PRM。该PRM随后被用于指导RGS过程，优化LLM的生成策略。整个流程无需额外的人工标注，降低了训练成本。

关键创新：SP-PRM的关键创新在于提出了双一致性框架，将评分一致性和偏好一致性这两个目标融入到PRM的训练中。与以往只关注结果奖励的ORM方法不同，SP-PRM更加关注生成过程中的奖励信号，从而实现更精细的对齐。此外，SP-PRM无需人工标注即可实现PRM的训练，降低了对人工资源的依赖。

关键设计：在评分一致性模块中，论文可能采用了某种形式的对比学习或一致性正则化，以确保PRM对同一序列的不同长度前缀给出相似的评分。在偏好一致性模块中，可能使用了某种形式的排序损失或偏好学习方法，以使PRM的评分与人类的偏好排序对齐。具体的损失函数和网络结构细节需要参考论文原文。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SP-PRM在对话、摘要和推理任务上均取得了显著的性能提升。具体而言，在GPT-4评估分数上，SP-PRM相比现有RGS方法提升了3.6%-10.3%。这些结果表明，SP-PRM能够有效地提升LLM的对齐效果，使其更好地满足人类偏好。

🎯 应用场景

该研究成果可广泛应用于各种需要与人类偏好对齐的大型语言模型应用场景，例如对话系统、文本摘要、代码生成、内容创作等。通过提升LLM的对齐效果，可以提高用户满意度，减少模型产生有害或不符合人类价值观内容的风险，从而促进LLM技术的健康发展。

📄 摘要（原文）

Inference-time alignment methods have gained significant attention for their efficiency and effectiveness in aligning large language models (LLMs) with human preferences. However, existing dominant approaches using reward-guided search (RGS) primarily rely on outcome reward models (ORMs), which suffer from a critical granularity mismatch: ORMs are designed to provide outcome rewards for complete responses, while RGS methods rely on process rewards to guide the policy, leading to inconsistent scoring and suboptimal alignment. To address this challenge, we introduce process reward models (PRMs) into RGS and argue that an ideal PRM should satisfy two objectives: Score Consistency, ensuring coherent evaluation across partial and complete responses, and Preference Consistency, aligning partial sequence assessments with human preferences. Based on these, we propose SP-PRM, a novel dual-consistency framework integrating score consistency-based and preference consistency-based partial evaluation modules without relying on human annotation. Extensive experiments on dialogue, summarization, and reasoning tasks demonstrate that SP-PRM substantially enhances existing RGS methods, achieving a 3.6%-10.3% improvement in GPT-4 evaluation scores across all tasks.

From Outcomes to Processes: Guiding PRM Learning from ORM for Inference-Time Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理