Unsupervised Process Reward Models

作者: Artyom Gadetsky, Maxim Kodryan, Siba Smarak Panigrahi, Hang Guo, Maria Brbic

分类: cs.LG

发布日期: 2026-05-11

备注: preprint

💡 一句话要点

提出无监督过程奖励模型（uPRM），通过概率评分机制实现无需人工标注的推理步骤评估。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 过程奖励模型 无监督学习 大语言模型推理 强化学习 自动评估 逻辑推理

📋 核心要点

现有过程奖励模型高度依赖昂贵且难以规模化的人工专家标注，限制了其在复杂推理任务中的广泛应用。
提出uPRM方法，利用LLM的下一个token概率构建评分函数，通过联合评估推理轨迹批次来自动识别错误步骤。
实验表明uPRM在错误检测、测试时扩展验证及强化学习策略优化方面均表现出色，且无需任何人工标签。

📝 摘要（中文）

过程奖励模型（PRMs）通过提供细粒度的步骤级监督，成为引导大语言模型推理的有力机制。然而，其有效性伴随着高昂的成本：PRMs需要对每个推理步骤进行专家标注，这使得它们难以扩展。本文提出了一种无监督过程奖励模型（uPRM）训练方法，无需任何人工监督，既不需要步骤级标注，也不依赖最终答案的真值验证。该方法的核心思想是定义一个基于LLM下一个token概率的评分函数，通过联合评估一批推理轨迹中首个错误步骤的候选位置来确定奖励。实验证明，uPRM在ProcessBench数据集上识别首个错误步骤的准确率较LLM-as-a-Judge提升了15%；作为测试时扩展的验证器，其表现与监督式PRM相当，且优于多数投票基线6.9%；在强化学习中，uPRM能提供比基于真值标签训练的监督式PRM更稳健的策略优化信号。

🔬 方法详解

问题定义：现有PRM训练依赖于密集的步骤级人工标注，导致数据获取成本极高且难以扩展。论文旨在解决如何在缺乏任何人工监督（包括最终答案真值）的情况下，自动评估推理轨迹中各步骤的正确性。

核心思路：利用LLM自身的概率分布作为内在监督信号。通过分析一批推理轨迹，假设错误往往在特定位置发生，利用联合概率分布评估候选位置，从而在无标签环境下实现对推理过程的细粒度打分。

技术框架：该方法构建了一个基于概率的评分函数，该函数接收推理轨迹作为输入，通过计算模型在不同步骤的预测概率，识别出轨迹中偏离正确逻辑的“首个错误步骤”。

关键创新：最大的创新在于引入了“无监督”的奖励建模范式，通过利用模型对推理路径的内在置信度分布，替代了传统依赖人工标注或答案验证的监督信号，实现了奖励模型的自我训练。

关键设计：核心设计在于评分函数的构造，它通过联合评估一批轨迹中潜在的错误位置，利用概率差异来区分有效推理与逻辑错误，从而在无需外部反馈的情况下提供稳定的奖励信号。

🖼️ 关键图片

📊 实验亮点

uPRM在ProcessBench数据集上识别首个错误步骤的准确率较LLM-as-a-Judge提升了15%（绝对值）；在测试时扩展任务中，其性能与监督式PRM相当，并较多数投票基线提升了6.9%；在强化学习场景下，uPRM展现出比基于真值标签训练的PRM更优的策略优化稳健性。

🎯 应用场景

该研究适用于需要高可靠性推理的复杂任务，如数学证明、代码生成及逻辑分析。其无需标注的特性使其能够在大规模未标记数据上进行训练，显著降低了开发高性能推理引导系统的门槛，对构建自主智能体和提升长链条推理任务的鲁棒性具有深远影响。

📄 摘要（原文）

Process Reward Models (PRMs) are a powerful mechanism for steering large language model reasoning by providing fine-grained, step-level supervision. However, this effectiveness comes at a significant cost: PRMs require expert annotations for every reasoning step, making them costly and difficult to scale. Here, we propose a method for training unsupervised PRMs (uPRM) that requires no human supervision, neither at the level of step-by-step annotations nor through ground-truth verification of final answers. The key idea behind our approach is to define a scoring function, derived from LLM next-token probabilities, that jointly assesses candidate positions of first erroneous steps across a batch of reasoning trajectories. We demonstrate the effectiveness of uPRM across diverse scenarios: (i) uPRM achieves up to 15% absolute accuracy improvements over the LLM-as-a-Judge in identifying first erroneous steps on the ProcessBench dataset; (ii) as a verifier for test-time scaling, uPRM performs comparably to supervised PRMs and outperforms the majority voting baseline by up to 6.9%, and (iii) when used as a reward signal in reinforcement learning, uPRM enables more robust policy optimization throughout training compared to a supervised PRM trained using ground-truth labels. Overall, our results open a path toward scalable reward modeling for complex reasoning tasks.

Unsupervised Process Reward Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理