Multi-Step Likelihood-Ratio Correction for Reinforcement Learning with Verifiable Rewards

📄 arXiv: 2605.20865v1 📥 PDF

作者: Deokgyu Yoon, Hyungkyu Kang, Joongkyu Lee, Byeongchan Kim, Gyungin Shin, Sungrae Park, Min-hwan Oh

分类: cs.LG, cs.AI

发布日期: 2026-05-20


💡 一句话要点

提出NFPO算法,通过多步似然比校正提升RLVR中语言模型的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 可验证奖励 语言模型 策略优化 偏差-方差权衡 推理能力 PPO N步前向迹

📋 核心要点

  1. 现有RLVR方法依赖局部近似的PPO目标函数,存在结构性偏差,影响模型推理能力。
  2. 提出NFPO算法,通过引入N步前向迹,在PPO和精确策略梯度间建立桥梁,平衡偏差与方差。
  3. 实验证明,NFPO在推理基准测试中表现优异,验证了其理论有效性,性能得到持续提升。

📝 摘要(中文)

本文针对可验证奖励的强化学习(RLVR)在提升大型语言模型推理能力中的关键作用,指出传统PPO代理目标函数的局部性问题。PPO依赖于精确策略梯度目标的局部近似,虽然通过降低重要性采样的方差来提高稳定性,但也引入了结构性偏差。为此,本文引入了N步前向迹,利用未来N-1个token的累积似然比来增强PPO代理目标。基于此,提出了N步前向迹策略优化(NFPO)算法,将N步前向迹集成到masked策略梯度框架中。NFPO在PPO代理目标和精确策略梯度目标之间提供了一个连续的桥梁,为控制偏差-方差权衡提供了一种原则性机制。理论分析表明,通过适当选择N,所提出的目标函数比标准PPO代理产生更严格的策略改进界限。在综合推理基准上的实验结果表明,NFPO能够持续提高性能,验证了理论分析。

🔬 方法详解

问题定义:论文旨在解决RLVR中,由于PPO代理目标函数的局部性导致的结构性偏差问题。现有的PPO方法虽然通过局部近似提高了训练稳定性,但这种近似引入了偏差,限制了模型在复杂推理任务中的表现。因此,如何有效地控制偏差-方差权衡,提升RLVR在语言模型推理中的性能是本文要解决的核心问题。

核心思路:论文的核心思路是通过引入N步前向迹来校正PPO的局部近似。N步前向迹利用未来N-1个token的累积似然比,将PPO代理目标与更全局的策略梯度目标联系起来。通过调整N的值,可以在偏差和方差之间进行权衡,从而优化策略学习过程。这种方法旨在克服PPO的局部性限制,并更准确地估计策略梯度。

技术框架:NFPO算法的整体框架基于masked策略梯度方法,并在此基础上集成了N步前向迹。主要流程包括:1) 使用当前策略生成token序列;2) 计算每个token的奖励;3) 计算N步前向迹,即未来N-1个token的累积似然比;4) 将N步前向迹与PPO代理目标结合,形成新的目标函数;5) 使用优化算法更新策略。

关键创新:NFPO的关键创新在于引入了N步前向迹,为PPO代理目标提供了一种可控的全局校正机制。与传统的PPO方法相比,NFPO能够更准确地估计策略梯度,从而实现更有效的策略学习。此外,NFPO提供了一种原则性的方法来控制偏差-方差权衡,允许根据具体任务调整N的值。

关键设计:NFPO的关键设计包括:1) N步前向迹的计算方式,即未来N-1个token的似然比的乘积;2) 如何将N步前向迹与PPO代理目标结合,形成新的目标函数;3) 如何选择合适的N值,以平衡偏差和方差。论文中可能还涉及对奖励函数的设计,以及对masked策略梯度方法的具体实现细节。

📊 实验亮点

实验结果表明,NFPO在多个推理基准测试中 consistently 优于传统的PPO方法。具体的性能提升幅度取决于具体的任务和数据集,但总体趋势是NFPO能够显著提高语言模型的推理能力。论文中可能给出了具体的性能数据,例如在某个基准测试中,NFPO的准确率比PPO提高了X%。

🎯 应用场景

该研究成果可应用于各种需要语言模型进行复杂推理的任务,例如问答系统、文本摘要、代码生成等。通过提升语言模型的推理能力,可以提高这些应用在实际场景中的性能和可靠性。此外,该方法还可以推广到其他强化学习领域,为解决类似的偏差-方差权衡问题提供借鉴。

📄 摘要(原文)

Reinforcement learning with verifiable rewards (RLVR) plays a pivotal role in improving the reasoning ability of large language models. However, widely used PPO surrogate objectives are fundamentally local, as they rely on a local approximation of the exact policy gradient objective. While this approximation improves stability by reducing the variance induced by importance sampling, it also introduces structural bias into the surrogate objective, which must be controlled through trust region mechanisms. In this work, we introduce the $N$-step forward trace, which augments the PPO surrogate objective using the cumulative likelihood ratio of the next $N-1$ tokens. Building on this idea, we propose $N$-Step Forward-Trace Policy Optimization (NFPO), a practical RLVR algorithm that integrates the $N$-step forward trace into the masked policy gradient framework. NFPO provides a continuous bridge between the PPO surrogate objective and the exact policy gradient objective, offering a principled mechanism for controlling the bias-variance trade-off. Our theoretical analysis shows that, with an appropriate choice of $N$, the proposed objective yields a tighter policy-improvement bound than the standard PPO surrogate. Experiments on comprehensive reasoning benchmarks demonstrate that NFPO consistently improves performance, supporting our theoretical findings.