Off-Policy Value-Based Reinforcement Learning for Large Language Models

作者: Peng-Yuan Wang, Ziniu Li, Tian Xu, Bohan Yang, Tian-Shuo Liu, ChenYang Wang, Xiong-Hui Chen, Yi-Chen Li, Tianyun Yang, Congliang Chen, Yang Yu

分类: cs.LG, cs.CL

发布日期: 2026-03-24

💡 一句话要点

提出ReVal：一种面向大语言模型的Off-Policy价值强化学习方法，提升数据利用率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 强化学习 Off-Policy学习 价值函数 数据效率

📋 核心要点

大语言模型强化学习面临数据效率低下的问题，现有On-Policy方法每次仅使用一次数据便丢弃，浪费了大量计算资源。
ReVal是一种基于价值的强化学习方法，通过贝尔曼更新和回放缓冲区，实现Off-Policy学习，有效复用历史轨迹数据。
实验表明，ReVal在数学推理任务上优于GRPO，在DeepSeek-R1-Distill-1.5B模型上，AIME24和GPQA分别提升了2.7%和4.5%。

📝 摘要（中文）

为了提高强化学习在长时程任务中的数据利用效率，本文提出了一种基于价值的强化学习框架ReVal，用于训练大语言模型。ReVal基于贝尔曼更新，结合了捕捉内部一致性的逐步信号和源于结果验证的轨迹级信号，天然支持基于回放缓冲区的训练，从而高效地复用历史轨迹。在标准数学推理基准测试中，ReVal不仅收敛速度更快，而且最终性能优于GRPO。在DeepSeek-R1-Distill-1.5B上，ReVal提高了训练效率，并在AIME24上实现了2.7%的改进，在领域外基准GPQA上实现了4.5%的改进。这些结果表明，基于价值的强化学习是LLM训练中一种可行的替代策略方法。

🔬 方法详解

问题定义：现有大语言模型（LLM）的强化学习方法，特别是策略梯度方法，通常是On-Policy的。这意味着每次收集到的数据（轨迹）只被用于一次参数更新，之后就被丢弃。在长时程任务中，生成轨迹的成本很高，这种低效的数据利用方式严重限制了模型训练的效率和可扩展性。因此，如何提高LLM强化学习的数据利用率是一个关键问题。

核心思路：ReVal的核心思路是采用价值函数近似的方法，将强化学习问题转化为一个回归问题，从而实现Off-Policy学习。通过学习一个价值函数，模型可以评估不同状态-动作对的优劣，而无需严格按照当前策略生成数据。这种方式允许模型利用过去的数据进行学习，显著提高数据利用效率。

技术框架：ReVal的整体框架包括以下几个主要模块：1）环境交互模块：负责与环境交互，生成轨迹数据。2）回放缓冲区：存储历史轨迹数据，用于Off-Policy学习。3）价值函数估计模块：使用神经网络近似价值函数，根据贝尔曼方程进行更新。4）策略改进模块：基于价值函数选择动作，改进策略。训练过程包括：从回放缓冲区采样数据，计算价值函数的TD误差，更新价值函数，然后使用价值函数指导策略的改进。

关键创新：ReVal最重要的创新点在于将价值函数近似引入到LLM的强化学习中，从而实现了Off-Policy学习。与传统的策略梯度方法相比，ReVal能够更有效地利用历史数据，加速模型训练。此外，ReVal结合了逐步信号（捕捉内部一致性）和轨迹级信号（源于结果验证），从而更准确地评估状态-动作对的价值。

关键设计：ReVal的关键设计包括：1）价值函数的网络结构：使用Transformer结构来建模LLM的价值函数。2）损失函数：使用TD误差作为损失函数，优化价值函数。3）探索策略：采用ε-greedy策略进行探索，平衡探索和利用。4）回放缓冲区的大小和采样策略：合理设置回放缓冲区的大小，并采用合适的采样策略，以保证数据的多样性和有效性。

📊 实验亮点

ReVal在数学推理基准测试中表现出色。在DeepSeek-R1-Distill-1.5B模型上，ReVal在AIME24数据集上取得了2.7%的性能提升，在领域外基准GPQA数据集上取得了4.5%的性能提升。这些结果表明，ReVal不仅收敛速度更快，而且最终性能优于On-Policy方法GRPO，验证了价值强化学习在LLM训练中的有效性。

🎯 应用场景

ReVal方法具有广泛的应用前景，可以应用于各种需要通过强化学习训练大语言模型的场景，例如：数学推理、代码生成、对话系统、游戏AI等。通过提高数据利用效率，ReVal可以降低训练成本，加速模型迭代，并最终提升模型的性能和泛化能力。该方法还有助于推动大语言模型在资源受限环境下的应用。

📄 摘要（原文）

Improving data utilization efficiency is critical for scaling reinforcement learning (RL) for long-horizon tasks where generating trajectories is expensive. However, the dominant RL methods for LLMs are largely on-policy: they update each batch of data only once, discard it, and then collect fresh samples, resulting in poor sample efficiency. In this work, we explore an alternative value-based RL framework for LLMs that naturally enables off-policy learning. We propose ReVal, a Bellman-update-based method that combines stepwise signals capturing internal consistency with trajectory-level signals derived from outcome verification. ReVal naturally supports replay-buffer-based training, allowing efficient reuse of past trajectories. Experiments on standard mathematical reasoning benchmarks show that ReVal not only converges faster but also outperforms GRPO in final performance. On DeepSeek-R1-Distill-1.5B, ReVal improves training efficiency and achieves improvement of 2.7% in AIME24 and 4.5% in out-of-domain benchmark GPQA over GRPO. These results suggest that value-based RL is a practical alternative to policy-based methods for LLM training.

Off-Policy Value-Based Reinforcement Learning for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理