Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning

📄 arXiv: 2505.15311v2 📥 PDF

作者: Yurun Yuan, Fan Chen, Zeyu Jia, Alexander Rakhlin, Tengyang Xie

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-05-21 (更新: 2025-11-12)

备注: NeurIPS 2025


💡 一句话要点

提出轨迹贝尔曼残差最小化(TBRM),一种简单高效的LLM推理值函数方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 值函数方法 贝尔曼残差最小化 数学推理

📋 核心要点

  1. 现有LLM推理的强化学习方法主要依赖于基于策略的方法,忽略了基于值函数方法的潜力。
  2. TBRM算法通过最小化轨迹级别的贝尔曼残差,直接优化LLM的Q值,无需额外的评论器或重要性采样。
  3. 实验结果表明,TBRM在数学推理任务上优于PPO和GRPO等基线方法,且计算开销更低。

📝 摘要(中文)

目前,基于策略的方法主导了大型语言模型(LLM)推理的强化学习(RL)流程,而基于值函数的方法在很大程度上未被探索。本文重新审视了贝尔曼残差最小化的经典范式,并引入了轨迹贝尔曼残差最小化(TBRM),该算法自然地将这一思想应用于LLM,产生了一种简单而有效的离策略算法,该算法使用模型自身的logits作为$Q$值来优化单个轨迹级别的贝尔曼目标。TBRM无需评论器、重要性采样比率或裁剪,并且每个提示仅需一次rollout。通过改进的轨迹度量变化分析,证明了从任意离策略数据收敛到接近最优的KL正则化策略。在标准数学推理基准上的实验表明,TBRM始终优于基于策略的基线方法,如PPO和GRPO,且具有相当或更低的计算和内存开销。结果表明,基于值函数的RL可能是增强LLM推理能力的原则性和有效替代方案。

🔬 方法详解

问题定义:现有基于策略的强化学习方法在训练LLM进行推理时存在一些问题,例如需要复杂的策略梯度估计、依赖额外的评论器网络以及计算高方差的重要性采样比率。这些方法增加了计算和内存开销,并且可能导致训练不稳定。因此,需要一种更简单、更高效的方法来提升LLM的推理能力。

核心思路:TBRM的核心思路是直接优化LLM的Q值,使其满足贝尔曼方程。通过最小化轨迹级别的贝尔曼残差,可以有效地学习到最优策略对应的Q函数,从而指导LLM生成高质量的推理轨迹。这种方法避免了策略梯度估计和评论器网络的使用,简化了训练流程。

技术框架:TBRM算法的整体框架包括以下步骤:1)使用LLM生成一条推理轨迹;2)计算该轨迹上每个状态-动作对的Q值,Q值直接使用LLM的logits;3)计算贝尔曼残差,即当前Q值与目标Q值之间的差异;4)使用梯度下降法最小化贝尔曼残差,更新LLM的参数。该过程重复进行,直到LLM的推理能力达到预期水平。

关键创新:TBRM的关键创新在于将贝尔曼残差最小化方法应用于LLM的推理任务,并直接使用LLM的logits作为Q值。这种方法简化了训练流程,避免了策略梯度估计和评论器网络的使用,同时实现了高效的离策略学习。此外,论文还提出了改进的轨迹度量变化分析,证明了TBRM算法的收敛性。

关键设计:TBRM的关键设计包括:1)使用KL散度正则化目标函数,以避免策略崩溃;2)使用单个轨迹进行训练,降低了计算开销;3)直接使用LLM的logits作为Q值,避免了额外的Q函数估计;4)使用Adam优化器进行参数更新。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TBRM在MATH、GSM8K等数学推理基准上显著优于PPO和GRPO等基线方法。例如,在MATH数据集上,TBRM的性能提升了约5-10个百分点,同时计算和内存开销更低。这些结果表明,TBRM是一种有效且高效的LLM推理方法。

🎯 应用场景

TBRM算法可应用于各种需要复杂推理能力的LLM应用场景,例如数学问题求解、代码生成、知识图谱推理和对话系统。该方法能够提升LLM的推理准确性和效率,降低计算成本,并有望推动LLM在实际应用中的广泛部署。

📄 摘要(原文)

Policy-based methods currently dominate reinforcement learning (RL) pipelines for large language model (LLM) reasoning, leaving value-based approaches largely unexplored. We revisit the classical paradigm of Bellman Residual Minimization and introduce Trajectory Bellman Residual Minimization (TBRM), an algorithm that naturally adapts this idea to LLMs, yielding a simple yet effective off-policy algorithm that optimizes a single trajectory-level Bellman objective using the model's own logits as $Q$-values. TBRM removes the need for critics, importance-sampling ratios, or clipping, and operates with only one rollout per prompt. We prove convergence to the near-optimal KL-regularized policy from arbitrary off-policy data via an improved change-of-trajectory-measure analysis. Experiments on standard mathematical-reasoning benchmarks show that TBRM consistently outperforms policy-based baselines, like PPO and GRPO, with comparable or lower computational and memory overhead. Our results indicate that value-based RL might be a principled and efficient alternative for enhancing reasoning capabilities in LLMs.