GRPO-VPS: Enhancing Group Relative Policy Optimization with Verifiable Process Supervision for Effective Reasoning

📄 arXiv: 2604.20659v1 📥 PDF

作者: Jingyi Wang, Lei Zhu, Tengjin Weng, Song-Li Wu, Haochen Tan, Jierun Chen, Chaofan Tao, Haoli Bai, Lu Hou, Lifeng Shang, Xiao-Ping Zhang

分类: cs.LG, cs.AI

发布日期: 2026-04-22


💡 一句话要点

提出GRPO-VPS,通过可验证的过程监督增强群体相对策略优化,提升LLM的推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理能力 过程监督 策略优化

📋 核心要点

  1. 现有基于群体相对策略优化(GRPO)的强化学习方法,在中间步骤的信用分配上存在不足,导致推理策略识别不准确和过度思考。
  2. GRPO-VPS通过在推理过程中探测模型对正确答案的置信度,实现可验证的过程监督,从而更精确地优化策略。
  3. 实验结果表明,GRPO-VPS在数学和通用领域任务上均优于GRPO,显著提升了准确率并减少了推理长度。

📝 摘要(中文)

本文提出了一种基于可验证过程监督的群体相对策略优化方法(GRPO-VPS),旨在提升大型语言模型(LLM)的推理能力。该方法建立在可验证奖励强化学习(RLVR)的基础上,通过直接的结果验证而非学习奖励模型来增强推理能力。GRPO虽然无需评论家模型,但其对中间步骤的信用分配不明确,限制了其识别有效推理策略的能力,并导致过度思考。GRPO-VPS通过探测模型在推理过程中对正确答案的置信度,实现无模型且可验证的过程监督。通过将生成过程分割成离散步骤,并跟踪每个分割边界处附加正确答案的条件概率,高效计算可解释的分段进度测量,从而优化GRPO的轨迹级反馈。这种方法实现了更有针对性和样本效率的策略更新,同时避免了从昂贵的蒙特卡罗rollout或辅助模型中获取中间监督的需求。在数学和通用领域基准测试上的实验表明,GRPO-VPS在各种模型上都优于GRPO:在数学任务上,准确率提高了2.6个百分点,推理长度减少了13.7%;在通用领域任务上,准确率提高了2.4个百分点,推理长度减少了4%,展示了强大的泛化能力。

🔬 方法详解

问题定义:现有基于群体相对策略优化(GRPO)的方法,虽然避免了评论家模型的使用,但其对推理过程中的中间步骤的贡献评估不够准确,导致无法有效识别关键的推理步骤,容易陷入过度思考,影响最终结果的准确性。

核心思路:GRPO-VPS的核心思路是通过可验证的过程监督来改进GRPO的信用分配机制。具体来说,它通过在推理过程的每个步骤中探测模型对正确答案的置信度,来评估每个步骤的贡献。这种方法无需额外的监督信号或模型,而是直接利用模型自身的预测信息,实现更精确的策略优化。

技术框架:GRPO-VPS的技术框架主要包含以下几个阶段:1) 将LLM的生成过程分割成离散的步骤;2) 在每个步骤的边界处,计算模型输出正确答案的条件概率,作为该步骤的进度测量;3) 利用这些进度测量来调整GRPO的轨迹级反馈,从而更精确地评估每个步骤的贡献;4) 使用调整后的反馈来更新策略,提高推理的准确性和效率。

关键创新:GRPO-VPS的关键创新在于引入了可验证的过程监督,通过探测模型在推理过程中对正确答案的置信度,实现了对中间步骤贡献的精确评估。与传统的GRPO相比,GRPO-VPS能够更有效地识别关键的推理步骤,避免过度思考,从而提高推理的准确性和效率。此外,该方法无需额外的监督信号或模型,降低了训练成本。

关键设计:GRPO-VPS的关键设计包括:1) 如何将LLM的生成过程分割成离散的步骤(例如,按token或按句子分割);2) 如何计算每个步骤边界处模型输出正确答案的条件概率(例如,使用softmax输出的概率);3) 如何利用这些条件概率来调整GRPO的轨迹级反馈(例如,使用加权平均或差分的方式);4) 如何选择合适的学习率和优化器来更新策略。具体的损失函数和网络结构细节在论文中可能没有明确给出,需要进一步查阅论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GRPO-VPS在数学任务上,准确率相比GRPO提高了高达2.6个百分点,推理长度减少了13.7%。在通用领域任务上,准确率提高了2.4个百分点,推理长度减少了4%。这些结果表明,GRPO-VPS能够显著提升LLM的推理能力,并具有良好的泛化性能。

🎯 应用场景

GRPO-VPS具有广泛的应用前景,可应用于数学问题求解、常识推理、代码生成等需要复杂推理的任务。该方法可以提升LLM在这些任务上的准确性和效率,降低计算成本,并有望应用于智能客服、教育辅导、自动化编程等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the reasoning capabilities of Large Language Models (LLMs) by leveraging direct outcome verification instead of learned reward models. Building on this paradigm, Group Relative Policy Optimization (GRPO) eliminates the need for critic models but suffers from indiscriminate credit assignment for intermediate steps, which limits its ability to identify effective reasoning strategies and incurs overthinking. In this work, we introduce a model-free and verifiable process supervision via probing the model's belief in the correct answer throughout its reasoning trajectory. By segmenting the generation into discrete steps and tracking the conditional probability of the correct answer appended at each segment boundary, we efficiently compute interpretable segment-wise progress measurements to refine GRPO's trajectory-level feedback. This approach enables more targeted and sample-efficient policy updates, while avoiding the need for intermediate supervision derived from costly Monte Carlo rollouts or auxiliary models. Experiments on mathematical and general-domain benchmarks show consistent gains over GRPO across diverse models: up to 2.6-point accuracy improvements and 13.7% reasoning-length reductions on math tasks, and up to 2.4 points and 4% on general-domain tasks, demonstrating strong generalization.