Beyond Verifiable Rewards: Scaling Reinforcement Learning for Language Models to Unverifiable Data
作者: Yunhao Tang, Sid Wang, Lovish Madaan, Rémi Munos
分类: cs.LG
发布日期: 2025-03-25 (更新: 2025-05-28)
💡 一句话要点
提出JEPO算法,扩展强化学习至不可验证数据的语言模型训练
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 语言模型 不可验证数据 思维链 Jensen不等式 策略优化 证据下界
📋 核心要点
- 现有强化学习方法在处理长篇、不可直接验证的语言模型输出时面临挑战。
- JEPO算法利用Jensen不等式简化证据下界,将思维链视为潜在变量进行优化。
- 实验表明,JEPO在可验证、半可验证和不可验证数据上均表现出优越性能。
📝 摘要(中文)
本文提出了一种名为JEPO(Jensen's Evidence lower bound Policy Optimization,Jensen证据下界策略优化)的新算法,旨在将强化学习扩展到不可验证的数据上。现有的大部分工作都集中在可验证的数据上,即答案通常是简短的形式,并且可以很容易地进行匹配。本文研究了这种假设不太有效的情况,例如答案是长篇形式,如数学证明。为了在当代训练约束下将强化学习训练扩展到不可验证的数据,本文提出了JEPO。JEPO应用了Jensen证据下界,这是一种对证据下界的实用简化,它将思维链视为生成过程中的潜在变量。实验表明,在可验证的数据(数学)上,JEPO与具有可验证奖励的强化学习一样有效;在半可验证的数据(numina)上,与只能利用数据源子集的具有可验证奖励的强化学习相比,JEPO改进了基于软匹配的评估;最后,在不可验证的数据(numina-proof)上,JEPO在似然评估方面优于SFT和一些消融基线。
🔬 方法详解
问题定义:论文旨在解决强化学习在语言模型中应用时,难以处理不可验证数据的问题。现有方法依赖于可验证的奖励信号,例如答案匹配,但在长篇生成任务(如数学证明)中,这种方法不再适用,因为正确性难以直接验证。这限制了强化学习在更广泛的语言模型任务中的应用。
核心思路:论文的核心思路是将思维链(chain-of-thought)视为生成过程中的潜在变量,并利用Jensen不等式推导出证据下界(Evidence Lower Bound, ELBO)的简化形式,即Jensen's Evidence Lower Bound (JEPO)。通过最大化这个下界,可以间接地优化策略,即使奖励信号不可直接验证。这种方法允许模型学习生成更合理的思维链,从而提高最终输出的质量。
技术框架:JEPO算法的整体框架如下:首先,使用语言模型生成思维链和最终答案。然后,利用奖励函数对最终答案进行评估(即使奖励不可完全验证)。接着,利用Jensen不等式推导出的JEPO目标函数,该目标函数基于思维链的对数似然和奖励的期望值。最后,使用策略梯度方法优化语言模型的参数,以最大化JEPO目标函数。
关键创新:JEPO的关键创新在于它能够利用不可验证的奖励信号来训练语言模型。与传统的强化学习方法不同,JEPO不需要精确的奖励信号,而是通过优化思维链的生成过程来间接地提高性能。这种方法使得强化学习可以应用于更广泛的语言模型任务,例如长篇生成、推理和对话。
关键设计:JEPO的关键设计包括:1) 使用Jensen不等式简化ELBO,使其更易于计算和优化;2) 将思维链视为潜在变量,允许模型学习生成更合理的推理过程;3) 使用策略梯度方法优化语言模型的参数,以最大化JEPO目标函数。具体的损失函数是基于JEPO下界的策略梯度估计,涉及到对数似然和奖励的加权平均。参数设置方面,需要调整策略梯度算法的学习率、折扣因子等超参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在可验证的数据(数学)上,JEPO与具有可验证奖励的强化学习一样有效。在半可验证的数据(numina)上,JEPO改进了基于软匹配的评估,优于只能利用数据源子集的具有可验证奖励的强化学习。在不可验证的数据(numina-proof)上,JEPO在似然评估方面优于SFT和一些消融基线。
🎯 应用场景
JEPO算法具有广泛的应用前景,可以应用于各种需要长篇生成和推理的语言模型任务,例如数学证明、代码生成、对话系统和文本摘要。该算法可以提高这些任务的性能和可靠性,并使得语言模型能够更好地处理复杂的问题。
📄 摘要(原文)
We propose to scale RL to unverifiable data with a novel algorithm JEPO (Jensen's Evidence lower bound Policy Optimization). While most prior efforts on scaling RL for LLMs focus on verifiable data where ground truth answers are typically short-form and can be matched easily; we investigate the case where such assumptions are less valid (e.g., when answers are long-form such as mathematical proofs). To scale RL training to unverifiable data with contemporary training constraints, we propose JEPO. JEPO applies Jensen's evidence lower bound, a pragmatic simplification of the evidence lower bound which views chain-of-thought as a latent variable in the generative process. We show that on verifiable data (math), JEPO is as effective as RL with verifiable rewards; on semi-verifiable data (numina), JEPO improves on soft-match based evaluations compared to RL with verifiable rewards which can only leverage a subset of the data source; finally, on unverifiable data (numina-proof), JEPO outperforms SFT and a few ablation baselines on likelihood evaluations.