Verifiable Process Rewards for Agentic Reasoning
作者: Huining Yuan, Zelai Xu, Huaijie Wang, Xiangmin Yi, Jiaxuan Gao, Xiao-Ping Zhang, Yu Wang, Chao Yu, Yi Wu
分类: cs.AI
发布日期: 2026-05-11
💡 一句话要点
提出可验证过程奖励(VPR)框架,通过密集的中间监督解决长程智能体推理中的信用分配难题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大语言模型 过程奖励模型 智能体推理 信用分配 形式化验证
📋 核心要点
- 现有RLVR方法主要依赖稀疏的结果级反馈,难以解决长程推理中因中间步骤错误导致整体失败的信用分配难题。
- 论文提出VPR框架,利用符号或算法预言机将中间动作转化为密集的回合级监督信号,实现对推理过程的精细化引导。
- 实验表明VPR在多个推理基准上显著优于现有基线,且具备跨任务的泛化能力,证明了过程监督对提升模型推理性能的有效性。
📝 摘要(中文)
基于可验证奖励的强化学习(RLVR)虽提升了大语言模型(LLM)的推理能力,但大多依赖稀疏的结果级反馈。这种稀疏性在长程智能体推理中导致了严重的信用分配挑战:轨迹可能因包含大量正确中间决策而失败,或因包含错误决策而侥幸成功。本文研究了一类可密集验证的智能体推理问题,即中间动作可通过符号或算法预言机(Oracle)进行客观检查。我们提出了可验证过程奖励(VPR)框架,将此类预言机转化为强化学习的密集回合级监督,并在动态演绎、逻辑推理和概率推理三个典型场景中进行了实例化。理论分析表明,基于验证器的密集奖励通过提供局部化学习信号,能有效改善长程信用分配。实验结果显示,VPR在多个基准测试中优于结果级奖励和基于Rollout的过程奖励,且具备良好的泛化能力,证明了可验证过程监督在提升LLM通用推理技能方面的潜力。
🔬 方法详解
问题定义:论文旨在解决长程智能体推理中的信用分配(Credit Assignment)问题。现有方法多依赖最终结果(Outcome-level)进行奖励,导致模型无法区分轨迹中哪些中间步骤是正确的,从而难以在复杂推理任务中高效学习。
核心思路:利用可验证的中间状态,将稀疏的最终奖励转化为密集的、基于过程的监督信号。通过在推理的每一步引入客观的验证器(Oracle),模型能够获得即时的反馈,从而更精准地优化策略。
技术框架:VPR框架包含三个核心模块:一是针对动态演绎的搜索验证器,二是针对逻辑推理的约束验证器,三是针对概率推理的后验验证器。这些模块共同作用于强化学习的奖励函数,将验证结果映射为标量奖励,引导模型进行策略更新。
关键创新:核心创新在于将“过程验证”与“强化学习”深度耦合。与传统的基于Rollout的过程奖励(依赖模型自身采样)不同,VPR利用外部客观预言机提供确定性的监督,从根本上解决了长程推理中的噪声干扰问题。
关键设计:设计了基于验证器反馈的奖励塑造(Reward Shaping)机制,通过理论分析证明了密集奖励能有效降低方差并加速收敛。同时,该方法通过将验证器集成到训练循环中,实现了对推理路径的实时剪枝与优化。
🖼️ 关键图片
📊 实验亮点
实验表明,VPR在受控环境及通用推理基准测试中均表现优异。相比于仅依赖结果奖励的基线,VPR在长程推理任务中展现出更快的收敛速度与更高的成功率。此外,VPR在不同任务间的迁移能力证明了其不仅能优化特定环境,还能有效提升模型的通用推理逻辑,验证了过程监督在复杂智能体训练中的显著优势。
🎯 应用场景
VPR框架适用于任何具有明确中间验证机制的推理任务,如数学证明、代码生成、复杂逻辑规划及科学计算。其核心价值在于通过引入客观监督,显著提升LLM在长程决策任务中的可靠性,为构建高可信度、可解释的智能体系统提供了技术路径,未来有望在自动化科研与复杂工程决策中发挥重要作用。
📄 摘要(原文)
Reinforcement learning from verifiable rewards (RLVR) has improved the reasoning abilities of large language models (LLMs), but most existing approaches rely on sparse outcome-level feedback. This sparsity creates a credit assignment challenge in long-horizon agentic reasoning: a trajectory may fail despite containing many correct intermediate decisions, or succeed despite containing flawed ones. In this work, we study a class of densely-verifiable agentic reasoning problems, where intermediate actions can be objectively checked by symbolic or algorithmic oracles. We propose Verifiable Process Rewards (VPR), a framework that converts such oracles into dense turn-level supervision for reinforcement learning, and instantiate it in three representative settings: search-based verification for dynamic deduction, constraint-based verification for logical reasoning, and posterior-based verification for probabilistic inference. We further provide a theoretical analysis showing that dense verifier-grounded rewards can improve long-horizon credit assignment by providing more localized learning signals, with the benefit depending on the reliability of the verifier. Empirically, VPR outperforms outcome-level reward and rollout-based process reward baselines across controlled environments, and more importantly, transfers to both general and agentic reasoning benchmarks, suggesting that verifiable process supervision can foster general reasoning skills applicable beyond the training environments. Our results indicate that VPR is a promising approach for enhancing LLM agents whenever reliable intermediate verification is available, while also highlighting its dependence on oracle quality and the open challenge of extending VPR to less structured, open-ended environments.