Unsupervised Process Reward Models
作者: Artyom Gadetsky, Maxim Kodryan, Siba Smarak Panigrahi, Hang Guo, Maria Brbic
分类: cs.LG
发布日期: 2026-05-11
备注: preprint
💡 一句话要点
提出无监督过程奖励模型(uPRM),通过概率评分机制实现无需人工标注的推理步骤评估。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 过程奖励模型 无监督学习 大语言模型推理 强化学习 自动评估 逻辑推理
📋 核心要点
- 现有过程奖励模型高度依赖昂贵且难以规模化的人工专家标注,限制了其在复杂推理任务中的广泛应用。
- 提出uPRM方法,利用LLM的下一个token概率构建评分函数,通过联合评估推理轨迹批次来自动识别错误步骤。
- 实验表明uPRM在错误检测、测试时扩展验证及强化学习策略优化方面均表现出色,且无需任何人工标签。
📝 摘要(中文)
过程奖励模型(PRMs)通过提供细粒度的步骤级监督,成为引导大语言模型推理的有力机制。然而,其有效性伴随着高昂的成本:PRMs需要对每个推理步骤进行专家标注,这使得它们难以扩展。本文提出了一种无监督过程奖励模型(uPRM)训练方法,无需任何人工监督,既不需要步骤级标注,也不依赖最终答案的真值验证。该方法的核心思想是定义一个基于LLM下一个token概率的评分函数,通过联合评估一批推理轨迹中首个错误步骤的候选位置来确定奖励。实验证明,uPRM在ProcessBench数据集上识别首个错误步骤的准确率较LLM-as-a-Judge提升了15%;作为测试时扩展的验证器,其表现与监督式PRM相当,且优于多数投票基线6.9%;在强化学习中,uPRM能提供比基于真值标签训练的监督式PRM更稳健的策略优化信号。
🔬 方法详解
问题定义:现有PRM训练依赖于密集的步骤级人工标注,导致数据获取成本极高且难以扩展。论文旨在解决如何在缺乏任何人工监督(包括最终答案真值)的情况下,自动评估推理轨迹中各步骤的正确性。
核心思路:利用LLM自身的概率分布作为内在监督信号。通过分析一批推理轨迹,假设错误往往在特定位置发生,利用联合概率分布评估候选位置,从而在无标签环境下实现对推理过程的细粒度打分。
技术框架:该方法构建了一个基于概率的评分函数,该函数接收推理轨迹作为输入,通过计算模型在不同步骤的预测概率,识别出轨迹中偏离正确逻辑的“首个错误步骤”。
关键创新:最大的创新在于引入了“无监督”的奖励建模范式,通过利用模型对推理路径的内在置信度分布,替代了传统依赖人工标注或答案验证的监督信号,实现了奖励模型的自我训练。
关键设计:核心设计在于评分函数的构造,它通过联合评估一批轨迹中潜在的错误位置,利用概率差异来区分有效推理与逻辑错误,从而在无需外部反馈的情况下提供稳定的奖励信号。
🖼️ 关键图片
📊 实验亮点
uPRM在ProcessBench数据集上识别首个错误步骤的准确率较LLM-as-a-Judge提升了15%(绝对值);在测试时扩展任务中,其性能与监督式PRM相当,并较多数投票基线提升了6.9%;在强化学习场景下,uPRM展现出比基于真值标签训练的PRM更优的策略优化稳健性。
🎯 应用场景
该研究适用于需要高可靠性推理的复杂任务,如数学证明、代码生成及逻辑分析。其无需标注的特性使其能够在大规模未标记数据上进行训练,显著降低了开发高性能推理引导系统的门槛,对构建自主智能体和提升长链条推理任务的鲁棒性具有深远影响。
📄 摘要(原文)
Process Reward Models (PRMs) are a powerful mechanism for steering large language model reasoning by providing fine-grained, step-level supervision. However, this effectiveness comes at a significant cost: PRMs require expert annotations for every reasoning step, making them costly and difficult to scale. Here, we propose a method for training unsupervised PRMs (uPRM) that requires no human supervision, neither at the level of step-by-step annotations nor through ground-truth verification of final answers. The key idea behind our approach is to define a scoring function, derived from LLM next-token probabilities, that jointly assesses candidate positions of first erroneous steps across a batch of reasoning trajectories. We demonstrate the effectiveness of uPRM across diverse scenarios: (i) uPRM achieves up to 15% absolute accuracy improvements over the LLM-as-a-Judge in identifying first erroneous steps on the ProcessBench dataset; (ii) as a verifier for test-time scaling, uPRM performs comparably to supervised PRMs and outperforms the majority voting baseline by up to 6.9%, and (iii) when used as a reward signal in reinforcement learning, uPRM enables more robust policy optimization throughout training compared to a supervised PRM trained using ground-truth labels. Overall, our results open a path toward scalable reward modeling for complex reasoning tasks.