OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning

📄 arXiv: 2605.21851v1 📥 PDF

作者: Yu Li, Rui Miao, Tian Lan, Zhengling Qi

分类: cs.LG, cs.AI

发布日期: 2026-05-21


💡 一句话要点

OPPO:基于贝叶斯值递归的LLM推理中Token级信用分配方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 大型语言模型 强化学习 信用分配 贝叶斯推理 推理能力 token级别 策略优化

📋 核心要点

  1. 现有GRPO算法在LLM推理中token信用分配存在信号稀释和噪声注入问题。
  2. OPPO利用oracle信号作为贝叶斯更新,累积轨迹信息,实现更精确的token级信用分配。
  3. 实验表明,OPPO在多个推理基准上显著优于现有方法,尤其在长序列推理中。

📝 摘要(中文)

利用可验证奖励的强化学习已成为提升LLM推理能力的标准方法,但主流算法GRPO为每个token分配单一的轨迹级优势,稀释了关键推理步骤的信号,并在无信息token处注入噪声。源于on-policy蒸馏的无Critic替代方案通过oracle条件似然比提供token级信号,但孤立地应用每个信号,忽略了轨迹级别证据的累积。我们提出了Oracle-Prompted Policy Optimization (OPPO),其核心在于:先前蒸馏方法用于局部判别的oracle信号也是模型对最终成功信念的自然贝叶斯更新。沿轨迹累积信号,以闭式形式且仅需一次额外前向传播,即可获得每个位置的成功概率的运行估计,以及无需学习值网络和额外rollout的token级优势。一阶分析将优势分解为蒸馏方法使用的token级判别信号,并由一个状态权重调节,该权重将信用集中在真正关键的token上,并具有方向性方差减少保证。该框架允许两种估计器,仅在哪个模型对证据进行评分上有所不同:重用学生模型的 extit{self-oracle},并将on-policy蒸馏奖励作为严格特例恢复;以及将评分委托给更强的冻结模型的 extit{teacher-oracle}。在七个数学、科学和代码推理基准测试中,OPPO在两个基础LLM上优于GRPO、DAPO和SDPO,在AMC'23上提升高达+6.0个点,在AIME'24上提升高达+5.2个点,且增益随着响应长度单调增加。

🔬 方法详解

问题定义:现有基于强化学习的LLM推理方法,如GRPO,通常使用轨迹级别的奖励信号来训练模型。这种方法的缺点在于,它无法区分轨迹中不同token的重要性,导致关键推理步骤的信号被稀释,而无关紧要的token则被错误地赋予了信用。这使得模型难以学习到有效的推理策略。

核心思路:OPPO的核心思路是将oracle信号视为模型对最终成功信念的贝叶斯更新。通过沿轨迹累积这些信号,OPPO可以估计每个token位置的成功概率,并据此计算token级别的优势函数。这种方法能够更精确地评估每个token对最终结果的贡献,从而实现更有效的信用分配。

技术框架:OPPO框架主要包含以下几个步骤:1) 使用LLM生成推理轨迹。2) 使用oracle(例如,正确答案)计算每个token的oracle信号。3) 将oracle信号视为模型信念的贝叶斯更新,并沿轨迹累积这些信号,计算每个token位置的成功概率估计。4) 基于成功概率估计,计算token级别的优势函数。5) 使用优势函数来更新LLM的策略。

关键创新:OPPO的关键创新在于将oracle信号与贝叶斯推理相结合,从而实现token级别的信用分配。与现有方法相比,OPPO不需要学习值函数,也不需要额外的rollout,而是通过单次前向传播即可计算token级别的优势函数。此外,OPPO还提供了一种方向性方差减少保证,确保信用集中在真正关键的token上。

关键设计:OPPO框架中包含两种oracle选择:self-oracle和teacher-oracle。Self-oracle使用学生模型本身来评估证据,而teacher-oracle则使用更强大的冻结模型。这两种选择允许在计算效率和性能之间进行权衡。此外,OPPO还使用了一种状态权重来调节token级别的优势函数,该权重旨在将信用集中在真正关键的token上。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,OPPO在AMC'23和AIME'24等多个数学、科学和代码推理基准测试中显著优于现有方法,例如GRPO、DAPO和SDPO。具体而言,OPPO在AMC'23上提升高达+6.0个点,在AIME'24上提升高达+5.2个点,并且增益随着响应长度单调增加。这表明OPPO在长序列推理中具有更强的优势。

🎯 应用场景

OPPO方法可应用于各种需要复杂推理的LLM应用场景,例如数学问题求解、科学推理、代码生成等。通过更精确的token级信用分配,OPPO能够提升LLM的推理能力和准确性,使其在这些领域发挥更大的作用。未来,该方法有望扩展到其他序列生成任务,例如文本摘要和机器翻译。

📄 摘要(原文)

Reinforcement learning with verifiable rewards has become the standard recipe for improving LLM reasoning, but the dominant algorithm GRPO assigns a single trajectory-level advantage to every token, diluting the signal at pivotal reasoning steps and injecting noise at uninformative ones. Critic-free alternatives derived from on-policy distillation supply per-token signals through oracle-conditioned likelihood ratios, yet apply each signal in isolation from the trajectory-level evidence accumulated up to that position. We propose Oracle-Prompted Policy Optimization (OPPO), which rests on a single observation: the oracle signal used by prior distillation-style methods for local discrimination is also the natural Bayesian update of the model's belief about eventual success. Accumulating the signal along a trajectory yields, in closed form and at the cost of one extra forward pass, a running estimate of the success probability at every position, together with a token-level advantage that requires no learned value network and no additional rollouts. A first-order analysis factorizes the advantage into the per-token discrimination signal used by distillation methods modulated by a state weight that concentrates credit on genuinely pivotal tokens, with a directional variance-reduction guarantee. The framework admits two estimators differing only in which model scores the evidence: a \textit{self-oracle} that reuses the student and recovers the on-policy distillation reward as a strict special case, and a \textit{teacher-oracle} that delegates scoring to a stronger frozen model. On two base LLMs across seven mathematics, science, and code reasoning benchmarks, OPPO improves over GRPO, DAPO, and SDPO by up to $+6.0$ points on AMC'23 and $+5.2$ points on AIME'24, with gains that widen monotonically with response length.