Off-Policy Value-Based Reinforcement Learning for Large Language Models
作者: Peng-Yuan Wang, Ziniu Li, Tian Xu, Bohan Yang, Tian-Shuo Liu, ChenYang Wang, Xiong-Hui Chen, Yi-Chen Li, Tianyun Yang, Congliang Chen, Yang Yu
分类: cs.LG, cs.CL
发布日期: 2026-03-24
💡 一句话要点
提出ReVal:一种面向大语言模型的Off-Policy价值强化学习方法,提升数据利用率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 强化学习 Off-Policy学习 价值函数 数据效率
📋 核心要点
- 大语言模型强化学习面临数据效率低下的问题,现有On-Policy方法每次仅使用一次数据便丢弃,浪费了大量计算资源。
- ReVal是一种基于价值的强化学习方法,通过贝尔曼更新和回放缓冲区,实现Off-Policy学习,有效复用历史轨迹数据。
- 实验表明,ReVal在数学推理任务上优于GRPO,在DeepSeek-R1-Distill-1.5B模型上,AIME24和GPQA分别提升了2.7%和4.5%。
📝 摘要(中文)
为了提高强化学习在长时程任务中的数据利用效率,本文提出了一种基于价值的强化学习框架ReVal,用于训练大语言模型。ReVal基于贝尔曼更新,结合了捕捉内部一致性的逐步信号和源于结果验证的轨迹级信号,天然支持基于回放缓冲区的训练,从而高效地复用历史轨迹。在标准数学推理基准测试中,ReVal不仅收敛速度更快,而且最终性能优于GRPO。在DeepSeek-R1-Distill-1.5B上,ReVal提高了训练效率,并在AIME24上实现了2.7%的改进,在领域外基准GPQA上实现了4.5%的改进。这些结果表明,基于价值的强化学习是LLM训练中一种可行的替代策略方法。
🔬 方法详解
问题定义:现有大语言模型(LLM)的强化学习方法,特别是策略梯度方法,通常是On-Policy的。这意味着每次收集到的数据(轨迹)只被用于一次参数更新,之后就被丢弃。在长时程任务中,生成轨迹的成本很高,这种低效的数据利用方式严重限制了模型训练的效率和可扩展性。因此,如何提高LLM强化学习的数据利用率是一个关键问题。
核心思路:ReVal的核心思路是采用价值函数近似的方法,将强化学习问题转化为一个回归问题,从而实现Off-Policy学习。通过学习一个价值函数,模型可以评估不同状态-动作对的优劣,而无需严格按照当前策略生成数据。这种方式允许模型利用过去的数据进行学习,显著提高数据利用效率。
技术框架:ReVal的整体框架包括以下几个主要模块:1)环境交互模块:负责与环境交互,生成轨迹数据。2)回放缓冲区:存储历史轨迹数据,用于Off-Policy学习。3)价值函数估计模块:使用神经网络近似价值函数,根据贝尔曼方程进行更新。4)策略改进模块:基于价值函数选择动作,改进策略。训练过程包括:从回放缓冲区采样数据,计算价值函数的TD误差,更新价值函数,然后使用价值函数指导策略的改进。
关键创新:ReVal最重要的创新点在于将价值函数近似引入到LLM的强化学习中,从而实现了Off-Policy学习。与传统的策略梯度方法相比,ReVal能够更有效地利用历史数据,加速模型训练。此外,ReVal结合了逐步信号(捕捉内部一致性)和轨迹级信号(源于结果验证),从而更准确地评估状态-动作对的价值。
关键设计:ReVal的关键设计包括:1)价值函数的网络结构:使用Transformer结构来建模LLM的价值函数。2)损失函数:使用TD误差作为损失函数,优化价值函数。3)探索策略:采用ε-greedy策略进行探索,平衡探索和利用。4)回放缓冲区的大小和采样策略:合理设置回放缓冲区的大小,并采用合适的采样策略,以保证数据的多样性和有效性。
📊 实验亮点
ReVal在数学推理基准测试中表现出色。在DeepSeek-R1-Distill-1.5B模型上,ReVal在AIME24数据集上取得了2.7%的性能提升,在领域外基准GPQA数据集上取得了4.5%的性能提升。这些结果表明,ReVal不仅收敛速度更快,而且最终性能优于On-Policy方法GRPO,验证了价值强化学习在LLM训练中的有效性。
🎯 应用场景
ReVal方法具有广泛的应用前景,可以应用于各种需要通过强化学习训练大语言模型的场景,例如:数学推理、代码生成、对话系统、游戏AI等。通过提高数据利用效率,ReVal可以降低训练成本,加速模型迭代,并最终提升模型的性能和泛化能力。该方法还有助于推动大语言模型在资源受限环境下的应用。
📄 摘要(原文)
Improving data utilization efficiency is critical for scaling reinforcement learning (RL) for long-horizon tasks where generating trajectories is expensive. However, the dominant RL methods for LLMs are largely on-policy: they update each batch of data only once, discard it, and then collect fresh samples, resulting in poor sample efficiency. In this work, we explore an alternative value-based RL framework for LLMs that naturally enables off-policy learning. We propose ReVal, a Bellman-update-based method that combines stepwise signals capturing internal consistency with trajectory-level signals derived from outcome verification. ReVal naturally supports replay-buffer-based training, allowing efficient reuse of past trajectories. Experiments on standard mathematical reasoning benchmarks show that ReVal not only converges faster but also outperforms GRPO in final performance. On DeepSeek-R1-Distill-1.5B, ReVal improves training efficiency and achieves improvement of 2.7% in AIME24 and 4.5% in out-of-domain benchmark GPQA over GRPO. These results suggest that value-based RL is a practical alternative to policy-based methods for LLM training.