OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning

作者: Yu Li, Rui Miao, Tian Lan, Zhengling Qi

分类: cs.LG, cs.AI

发布日期: 2026-05-21

💡 一句话要点

OPPO：基于贝叶斯值递归的LLM推理中Token级信用分配方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 大型语言模型 强化学习 信用分配 贝叶斯推理 推理能力 token级别 策略优化

📋 核心要点

现有GRPO算法在LLM推理中token信用分配存在信号稀释和噪声注入问题。
OPPO利用oracle信号作为贝叶斯更新，累积轨迹信息，实现更精确的token级信用分配。
实验表明，OPPO在多个推理基准上显著优于现有方法，尤其在长序列推理中。

📝 摘要（中文）

利用可验证奖励的强化学习已成为提升LLM推理能力的标准方法，但主流算法GRPO为每个token分配单一的轨迹级优势，稀释了关键推理步骤的信号，并在无信息token处注入噪声。源于on-policy蒸馏的无Critic替代方案通过oracle条件似然比提供token级信号，但孤立地应用每个信号，忽略了轨迹级别证据的累积。我们提出了Oracle-Prompted Policy Optimization (OPPO)，其核心在于：先前蒸馏方法用于局部判别的oracle信号也是模型对最终成功信念的自然贝叶斯更新。沿轨迹累积信号，以闭式形式且仅需一次额外前向传播，即可获得每个位置的成功概率的运行估计，以及无需学习值网络和额外rollout的token级优势。一阶分析将优势分解为蒸馏方法使用的token级判别信号，并由一个状态权重调节，该权重将信用集中在真正关键的token上，并具有方向性方差减少保证。该框架允许两种估计器，仅在哪个模型对证据进行评分上有所不同：重用学生模型的 extit{self-oracle}，并将on-policy蒸馏奖励作为严格特例恢复；以及将评分委托给更强的冻结模型的 extit{teacher-oracle}。在七个数学、科学和代码推理基准测试中，OPPO在两个基础LLM上优于GRPO、DAPO和SDPO，在AMC'23上提升高达+6.0个点，在AIME'24上提升高达+5.2个点，且增益随着响应长度单调增加。

🔬 方法详解

问题定义：现有基于强化学习的LLM推理方法，如GRPO，通常使用轨迹级别的奖励信号来训练模型。这种方法的缺点在于，它无法区分轨迹中不同token的重要性，导致关键推理步骤的信号被稀释，而无关紧要的token则被错误地赋予了信用。这使得模型难以学习到有效的推理策略。

核心思路：OPPO的核心思路是将oracle信号视为模型对最终成功信念的贝叶斯更新。通过沿轨迹累积这些信号，OPPO可以估计每个token位置的成功概率，并据此计算token级别的优势函数。这种方法能够更精确地评估每个token对最终结果的贡献，从而实现更有效的信用分配。

技术框架：OPPO框架主要包含以下几个步骤：1) 使用LLM生成推理轨迹。2) 使用oracle（例如，正确答案）计算每个token的oracle信号。3) 将oracle信号视为模型信念的贝叶斯更新，并沿轨迹累积这些信号，计算每个token位置的成功概率估计。4) 基于成功概率估计，计算token级别的优势函数。5) 使用优势函数来更新LLM的策略。

关键创新：OPPO的关键创新在于将oracle信号与贝叶斯推理相结合，从而实现token级别的信用分配。与现有方法相比，OPPO不需要学习值函数，也不需要额外的rollout，而是通过单次前向传播即可计算token级别的优势函数。此外，OPPO还提供了一种方向性方差减少保证，确保信用集中在真正关键的token上。

关键设计：OPPO框架中包含两种oracle选择：self-oracle和teacher-oracle。Self-oracle使用学生模型本身来评估证据，而teacher-oracle则使用更强大的冻结模型。这两种选择允许在计算效率和性能之间进行权衡。此外，OPPO还使用了一种状态权重来调节token级别的优势函数，该权重旨在将信用集中在真正关键的token上。

🖼️ 关键图片

📊 实验亮点

实验结果表明，OPPO在AMC'23和AIME'24等多个数学、科学和代码推理基准测试中显著优于现有方法，例如GRPO、DAPO和SDPO。具体而言，OPPO在AMC'23上提升高达+6.0个点，在AIME'24上提升高达+5.2个点，并且增益随着响应长度单调增加。这表明OPPO在长序列推理中具有更强的优势。

🎯 应用场景

OPPO方法可应用于各种需要复杂推理的LLM应用场景，例如数学问题求解、科学推理、代码生成等。通过更精确的token级信用分配，OPPO能够提升LLM的推理能力和准确性，使其在这些领域发挥更大的作用。未来，该方法有望扩展到其他序列生成任务，例如文本摘要和机器翻译。

📄 摘要（原文）

Reinforcement learning with verifiable rewards has become the standard recipe for improving LLM reasoning, but the dominant algorithm GRPO assigns a single trajectory-level advantage to every token, diluting the signal at pivotal reasoning steps and injecting noise at uninformative ones. Critic-free alternatives derived from on-policy distillation supply per-token signals through oracle-conditioned likelihood ratios, yet apply each signal in isolation from the trajectory-level evidence accumulated up to that position. We propose Oracle-Prompted Policy Optimization (OPPO), which rests on a single observation: the oracle signal used by prior distillation-style methods for local discrimination is also the natural Bayesian update of the model's belief about eventual success. Accumulating the signal along a trajectory yields, in closed form and at the cost of one extra forward pass, a running estimate of the success probability at every position, together with a token-level advantage that requires no learned value network and no additional rollouts. A first-order analysis factorizes the advantage into the per-token discrimination signal used by distillation methods modulated by a state weight that concentrates credit on genuinely pivotal tokens, with a directional variance-reduction guarantee. The framework admits two estimators differing only in which model scores the evidence: a \textit{self-oracle} that reuses the student and recovers the on-policy distillation reward as a strict special case, and a \textit{teacher-oracle} that delegates scoring to a stronger frozen model. On two base LLMs across seven mathematics, science, and code reasoning benchmarks, OPPO improves over GRPO, DAPO, and SDPO by up to $+6.0$ points on AMC'23 and $+5.2$ points on AIME'24, with gains that widen monotonically with response length.

OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理