Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

作者: Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini

分类: cs.LG, cs.AI

发布日期: 2025-05-07

💡 一句话要点

RL$^V$: 统一LLM推理器与验证器，提升强化学习测试时可扩展性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 大型语言模型 推理器 验证器 价值函数 计算扩展 泛化能力

📋 核心要点

现有强化学习微调LLM推理器的方法忽略了价值函数，限制了测试时计算扩展。
RL$^V$联合训练LLM作为推理器和验证器，利用RL生成数据，增强验证能力。
实验表明，RL$^V$显著提升了MATH准确率和测试时计算效率，并具有良好的泛化能力。

📝 摘要（中文）

针对微调大型语言模型（LLM）推理器的强化学习（RL）方法，如GRPO或Leave-one-out PPO，通常会放弃学习到的价值函数，转而使用经验估计的回报。这阻碍了依赖价值函数进行验证的测试时计算扩展。本文提出了RL$^V$，通过使用RL生成的数据联合训练LLM作为推理器和生成式验证器，从而增强任何“无价值”RL方法，在不显著增加开销的情况下增加验证能力。实验表明，RL$^V$通过并行采样将MATH的准确率提高了20%以上，并且与基础RL方法相比，实现了8-32倍的高效测试时计算扩展。RL$^V$还展示了从易到难和跨领域任务的强大泛化能力。此外，当联合扩展并行和顺序测试时计算时，具有长推理R1模型的RL$^V$实现了1.2-1.6倍的更高性能。

🔬 方法详解

问题定义：现有基于强化学习的LLM推理器微调方法，例如GRPO和Leave-one-out PPO，为了简化训练过程，通常会放弃学习到的价值函数，直接使用经验估计的回报作为优化目标。然而，价值函数在强化学习中扮演着重要的角色，尤其是在测试阶段，它可以用于评估中间状态的优劣，从而指导搜索和验证。放弃价值函数导致这些方法在测试时难以有效地利用计算资源进行扩展，例如通过并行采样和验证来提升性能。

核心思路：RL$^V$的核心思路是重新引入价值函数，并将其与LLM推理器联合训练。具体来说，RL$^V$将LLM同时训练成一个推理器和一个生成式验证器。推理器负责生成解题步骤，而验证器则负责评估这些步骤的质量。通过这种方式，RL$^V$可以在不显著增加训练开销的情况下，为LLM赋予验证能力，从而在测试时能够更有效地利用价值函数进行计算扩展。

技术框架：RL$^V$的整体框架可以概括为以下几个步骤：1. 使用现有的“无价值”RL方法（例如GRPO或Leave-one-out PPO）生成训练数据，这些数据包含LLM生成的解题步骤和相应的奖励信号。2. 使用这些数据，联合训练LLM作为推理器和验证器。推理器的训练目标是最大化期望回报，而验证器的训练目标是准确预测状态的价值。3. 在测试时，RL$^V$可以利用验证器来评估LLM生成的解题步骤，并选择价值最高的步骤进行扩展。这可以通过并行采样多个解题步骤，并使用验证器选择最佳步骤来实现。

关键创新：RL$^V$的关键创新在于将LLM同时训练成推理器和生成式验证器，从而在“无价值”RL方法的基础上重新引入了价值函数。这种方法不仅可以提升LLM的推理性能，还可以使其在测试时能够更有效地利用计算资源进行扩展。与现有方法相比，RL$^V$不需要对现有的RL训练流程进行大幅修改，只需要添加一个额外的验证器训练目标即可。

关键设计：RL$^V$的关键设计包括以下几个方面：1. 验证器的网络结构：验证器可以使用与推理器相同的LLM架构，也可以使用一个独立的LLM架构。2. 验证器的训练目标：验证器的训练目标是准确预测状态的价值。这可以通过使用均方误差损失函数或交叉熵损失函数来实现。3. 测试时的搜索策略：RL$^V$可以使用不同的搜索策略来利用验证器进行计算扩展。例如，可以使用并行采样和验证，或者使用树搜索算法。

📊 实验亮点

RL$^V$在MATH数据集上取得了显著的性能提升，通过并行采样将准确率提高了20%以上。与基础RL方法相比，RL$^V$实现了8-32倍的高效测试时计算扩展。此外，RL$^V$还展示了强大的泛化能力，能够很好地适应从易到难和跨领域的任务。当联合扩展并行和顺序测试时计算时，具有长推理R1模型的RL$^V$实现了1.2-1.6倍的更高性能。

🎯 应用场景

RL$^V$具有广泛的应用前景，可以应用于各种需要LLM进行推理和决策的任务中，例如数学问题求解、代码生成、对话系统等。通过提升LLM的推理性能和测试时计算效率，RL$^V$可以帮助LLM更好地解决复杂问题，并降低部署成本。此外，RL$^V$的泛化能力使其能够适应不同的任务和领域，具有很强的实用价值。

📄 摘要（原文）

Prevalent reinforcement learning~(RL) methods for fine-tuning LLM reasoners, such as GRPO or Leave-one-out PPO, abandon the learned value function in favor of empirically estimated returns. This hinders test-time compute scaling that relies on using the value-function for verification. In this work, we propose RL$^V$ that augments any ``value-free'' RL method by jointly training the LLM as both a reasoner and a generative verifier using RL-generated data, adding verification capabilities without significant overhead. Empirically, RL$^V$ boosts MATH accuracy by over 20\% with parallel sampling and enables $8-32\times$ efficient test-time compute scaling compared to the base RL method. RL$^V$ also exhibits strong generalization capabilities for both easy-to-hard and out-of-domain tasks. Furthermore, RL$^V$ achieves $1.2-1.6\times$ higher performance when jointly scaling parallel and sequential test-time compute with a long reasoning R1 model.

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理