Policy Improvement Reinforcement Learning
作者: Huaiyang Wang, Xiaojie Li, Deqing Wang, Haoyi Zhou, Zixuan Huang, Yaodong Yang, Jianxin Li, Yikun Ban
分类: cs.LG
发布日期: 2026-04-01
💡 一句话要点
提出PIRL框架,通过显式优化策略迭代间的累积改进来提升LLM的推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 策略优化 推理能力 闭环优化 回顾性验证 策略改进 数学推理
📋 核心要点
- 现有RLVR方法缺乏策略改进的直接反馈,导致优化过程可能漂移或崩溃。
- PIRL框架通过显式最大化迭代间的累积策略改进来解决这一问题,确保优化目标与最终任务性能对齐。
- PIPO算法基于PIRL,通过回顾性验证实现闭环优化,增强有益更新并抑制有害更新,提升稳定性和性能。
📝 摘要(中文)
具有可验证奖励的强化学习(RLVR)已成为提升大型语言模型推理能力的关键后训练范式。然而,现有方法存在一个共同的盲点:它们基于瞬时群体或批次级别的统计数据来优化策略,而从未验证由此产生的更新是否真正改进了模型。这种开环设计——在每个步骤中孤立地更新,仅受组内(批次)奖励信号的指导——意味着优化可能会漂移或崩溃,而没有机制来检测和纠正这些失败。我们认为,缺失的要素是策略改进反馈:衡量和直接优化迭代间进展的能力。为此,我们引入了策略改进强化学习(PIRL),该框架用最大化迭代间累积策略改进的显式目标取代了替代奖励最大化,并证明了这种时间目标与最大化最终任务性能完全一致。在PIRL的基础上,我们提出了策略改进策略优化(PIPO),它通过回顾性验证来实现闭环优化。在每次迭代中,PIPO评估先前的更新是否产生了相对于滑动窗口历史基线的真正改进,然后主动加强有益的更新并抑制有害的更新——将开环过程转变为自我纠正的过程。我们提供了理论分析,表明PIPO在期望上执行PIRL目标的上升,并且在数学推理基准上的实验表明,与GRPO及其变体相比,PIPO具有更高的稳定性和性能。
🔬 方法详解
问题定义:现有基于强化学习的语言模型推理能力提升方法,如GRPO,采用开环优化,即基于瞬时奖励信号进行策略更新,缺乏对策略迭代间改进的直接验证。这可能导致优化过程不稳定,甚至使模型性能下降。现有方法未能有效利用历史信息来指导策略更新,缺乏自我纠正机制。
核心思路:PIRL的核心思路是将策略优化目标从最大化替代奖励转变为最大化迭代间的累积策略改进。通过显式地衡量和优化策略在迭代过程中的实际提升,PIRL能够更稳定地提升模型性能。PIPO算法进一步引入闭环优化,通过回顾性验证来判断每次策略更新的有效性,并根据验证结果调整更新方向,从而实现自我纠正。
技术框架:PIRL框架包含以下主要组成部分:1) 策略模型:待优化的语言模型。2) 奖励函数:用于评估模型在特定任务上的表现。3) 策略改进度量:用于衡量策略在迭代间的改进程度。4) 优化器:用于根据策略改进度量更新策略模型。PIPO算法在PIRL的基础上增加了回顾性验证模块,该模块通过滑动窗口历史基线来评估每次策略更新的有效性,并根据评估结果调整更新方向。
关键创新:PIRL的关键创新在于将策略优化目标从最大化替代奖励转变为最大化迭代间的累积策略改进。这种转变使得优化目标与最终任务性能更加对齐,从而提高了优化过程的稳定性和效率。PIPO算法通过回顾性验证实现闭环优化,进一步增强了优化过程的鲁棒性。与现有方法相比,PIRL和PIPO能够更有效地利用历史信息来指导策略更新,并具有自我纠正机制。
关键设计:PIRL的关键设计在于策略改进度量的选择。论文中可能采用了某种特定的度量方式来衡量策略在迭代间的改进程度,例如KL散度或其他距离度量。PIPO的关键设计在于滑动窗口历史基线的选择和回顾性验证的阈值设置。这些参数的选择会影响PIPO的性能和稳定性。此外,损失函数的设计也至关重要,需要能够有效地增强有益的更新并抑制有害的更新。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PIPO算法在数学推理基准上优于GRPO及其变体,展现出更高的稳定性和性能。具体性能数据(例如准确率提升幅度)在原文中给出,证明了PIRL和PIPO框架的有效性。通过回顾性验证,PIPO能够有效抑制有害更新,避免模型性能下降,从而实现更可靠的性能提升。
🎯 应用场景
该研究成果可应用于各种需要提升推理能力的大型语言模型,例如数学问题求解、代码生成、逻辑推理等。通过PIRL和PIPO框架,可以更稳定、更有效地提升这些模型的性能,使其在实际应用中表现更佳。此外,该研究思路也可以推广到其他强化学习任务中,为解决优化不稳定问题提供新的思路。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has become a central post-training paradigm for improving the reasoning capabilities of large language models. Yet existing methods share a common blind spot: they optimize policies based on instantaneous group-level or batch-level statistics without ever verifying whether the resulting update actually improved the model. This open-loop design -- updating in isolation at each step, guided only by within-group (batch) reward signals -- means optimization can drift or collapse with no mechanism to detect and correct these failures. We argue that the missing ingredient is policy improvement feedback: the ability to measure and optimize inter-iteration progress directly. To this end, we introduce Policy Improvement Reinforcement Learning (PIRL), a framework that replaces surrogate reward maximization with the explicit objective of maximizing cumulative policy improvement across iterations, and prove this temporal objective is perfectly aligned with maximizing final task performance. Building on PIRL, we propose Policy Improvement Policy Optimization (PIPO), which implements closed-loop optimization through retrospective verification. At each iteration, PIPO evaluates whether the previous update yielded genuine improvement against a sliding-window historical baseline, then actively reinforces beneficial updates and suppresses the harmful ones -- transforming an open-loop process into a self-correcting one. We provide theoretical analysis showing that PIPO performs ascent on the PIRL objective in expectation, and experiments on mathematical reasoning benchmarks demonstrate improved stability and performance over GRPO and its variants.