Beyond Verifiable Rewards: Scaling Reinforcement Learning for Language Models to Unverifiable Data

作者: Yunhao Tang, Sid Wang, Lovish Madaan, Rémi Munos

分类: cs.LG

发布日期: 2025-03-25 (更新: 2025-05-28)

💡 一句话要点

提出JEPO算法，扩展强化学习至不可验证数据的语言模型训练

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 语言模型 不可验证数据 思维链 Jensen不等式 策略优化 证据下界

📋 核心要点

现有强化学习方法在处理长篇、不可直接验证的语言模型输出时面临挑战。
JEPO算法利用Jensen不等式简化证据下界，将思维链视为潜在变量进行优化。
实验表明，JEPO在可验证、半可验证和不可验证数据上均表现出优越性能。

📝 摘要（中文）

本文提出了一种名为JEPO（Jensen's Evidence lower bound Policy Optimization，Jensen证据下界策略优化）的新算法，旨在将强化学习扩展到不可验证的数据上。现有的大部分工作都集中在可验证的数据上，即答案通常是简短的形式，并且可以很容易地进行匹配。本文研究了这种假设不太有效的情况，例如答案是长篇形式，如数学证明。为了在当代训练约束下将强化学习训练扩展到不可验证的数据，本文提出了JEPO。JEPO应用了Jensen证据下界，这是一种对证据下界的实用简化，它将思维链视为生成过程中的潜在变量。实验表明，在可验证的数据（数学）上，JEPO与具有可验证奖励的强化学习一样有效；在半可验证的数据（numina）上，与只能利用数据源子集的具有可验证奖励的强化学习相比，JEPO改进了基于软匹配的评估；最后，在不可验证的数据（numina-proof）上，JEPO在似然评估方面优于SFT和一些消融基线。

🔬 方法详解

问题定义：论文旨在解决强化学习在语言模型中应用时，难以处理不可验证数据的问题。现有方法依赖于可验证的奖励信号，例如答案匹配，但在长篇生成任务（如数学证明）中，这种方法不再适用，因为正确性难以直接验证。这限制了强化学习在更广泛的语言模型任务中的应用。

核心思路：论文的核心思路是将思维链（chain-of-thought）视为生成过程中的潜在变量，并利用Jensen不等式推导出证据下界（Evidence Lower Bound, ELBO）的简化形式，即Jensen's Evidence Lower Bound (JEPO)。通过最大化这个下界，可以间接地优化策略，即使奖励信号不可直接验证。这种方法允许模型学习生成更合理的思维链，从而提高最终输出的质量。

技术框架：JEPO算法的整体框架如下：首先，使用语言模型生成思维链和最终答案。然后，利用奖励函数对最终答案进行评估（即使奖励不可完全验证）。接着，利用Jensen不等式推导出的JEPO目标函数，该目标函数基于思维链的对数似然和奖励的期望值。最后，使用策略梯度方法优化语言模型的参数，以最大化JEPO目标函数。

关键创新：JEPO的关键创新在于它能够利用不可验证的奖励信号来训练语言模型。与传统的强化学习方法不同，JEPO不需要精确的奖励信号，而是通过优化思维链的生成过程来间接地提高性能。这种方法使得强化学习可以应用于更广泛的语言模型任务，例如长篇生成、推理和对话。

关键设计：JEPO的关键设计包括：1) 使用Jensen不等式简化ELBO，使其更易于计算和优化；2) 将思维链视为潜在变量，允许模型学习生成更合理的推理过程；3) 使用策略梯度方法优化语言模型的参数，以最大化JEPO目标函数。具体的损失函数是基于JEPO下界的策略梯度估计，涉及到对数似然和奖励的加权平均。参数设置方面，需要调整策略梯度算法的学习率、折扣因子等超参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在可验证的数据（数学）上，JEPO与具有可验证奖励的强化学习一样有效。在半可验证的数据（numina）上，JEPO改进了基于软匹配的评估，优于只能利用数据源子集的具有可验证奖励的强化学习。在不可验证的数据（numina-proof）上，JEPO在似然评估方面优于SFT和一些消融基线。

🎯 应用场景

JEPO算法具有广泛的应用前景，可以应用于各种需要长篇生成和推理的语言模型任务，例如数学证明、代码生成、对话系统和文本摘要。该算法可以提高这些任务的性能和可靠性，并使得语言模型能够更好地处理复杂的问题。

📄 摘要（原文）

We propose to scale RL to unverifiable data with a novel algorithm JEPO (Jensen's Evidence lower bound Policy Optimization). While most prior efforts on scaling RL for LLMs focus on verifiable data where ground truth answers are typically short-form and can be matched easily; we investigate the case where such assumptions are less valid (e.g., when answers are long-form such as mathematical proofs). To scale RL training to unverifiable data with contemporary training constraints, we propose JEPO. JEPO applies Jensen's evidence lower bound, a pragmatic simplification of the evidence lower bound which views chain-of-thought as a latent variable in the generative process. We show that on verifiable data (math), JEPO is as effective as RL with verifiable rewards; on semi-verifiable data (numina), JEPO improves on soft-match based evaluations compared to RL with verifiable rewards which can only leverage a subset of the data source; finally, on unverifiable data (numina-proof), JEPO outperforms SFT and a few ablation baselines on likelihood evaluations.

Beyond Verifiable Rewards: Scaling Reinforcement Learning for Language Models to Unverifiable Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理