Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards

📄 arXiv: 2505.13445v1 📥 PDF

作者: Xiaoyuan Liu, Tian Liang, Zhiwei He, Jiahao Xu, Wenxuan Wang, Pinjia He, Zhaopeng Tu, Haitao Mi, Dong Yu

分类: cs.AI, cs.CL

发布日期: 2025-05-19

备注: code available at https://github.com/xyliu-cs/RISE


💡 一句话要点

提出RISE框架,通过在线自验证强化学习提升LLM数学推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 自验证 数学推理 在线学习

📋 核心要点

  1. 现有RLVR方法中,LLM的“表面自反思”问题导致模型无法有效验证自身输出,影响推理能力。
  2. RISE框架通过在线强化学习,同步训练LLM的问题解决和自验证能力,利用可验证奖励提供即时反馈。
  3. 实验表明,RISE能显著提升LLM在数学推理任务中的准确率,并增强其自验证能力和行为。

📝 摘要(中文)

大型语言模型(LLMs)在复杂推理方面展现出巨大潜力,而具有可验证奖励的强化学习(RLVR)是关键的增强策略。然而,一个普遍存在的问题是“表面自反思”,即模型无法稳健地验证自己的输出。我们提出了RISE(Reinforcing Reasoning with Self-Verification),这是一个新颖的在线强化学习框架,旨在解决这个问题。RISE显式地、同时地训练LLM,在一个单一的、集成的强化学习过程中,提高其解决问题和自验证能力。核心机制是利用来自结果验证器的可验证奖励,为解决方案生成和自验证任务提供即时反馈。在每次迭代中,模型生成解决方案,然后批判性地评估其自身生成的解决方案,这两个轨迹都有助于策略更新。在不同的数学推理基准上的大量实验表明,RISE持续提高模型的解决问题准确性,同时培养强大的自验证技能。我们的分析突出了在线验证的优势和增加验证计算的好处。此外,RISE模型在推理过程中表现出更频繁和准确的自验证行为。这些优势巩固了RISE作为开发更强大和具有自我意识的推理器的灵活有效途径。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在进行复杂推理时,尤其是使用可验证奖励的强化学习(RLVR)方法时,存在的“表面自反思”问题。现有方法中,模型虽然能够生成解决方案,但缺乏对自身解决方案的有效验证机制,导致推理过程不够鲁棒,容易出错。模型的自验证能力不足,无法充分利用可验证奖励的反馈信息。

核心思路:RISE的核心思路是通过在线强化学习,同时训练LLM的问题解决能力和自验证能力。模型不仅要生成解决方案,还要对自身生成的解决方案进行批判性评估。通过这种方式,模型可以学习如何更有效地识别和纠正错误,从而提高推理的准确性和可靠性。在线学习的方式使得模型能够根据即时反馈进行调整,避免了离线学习的滞后性。

技术框架:RISE框架包含以下主要模块:1) 问题生成模块:负责生成需要解决的问题。2) 解决方案生成模块:LLM根据问题生成解决方案。3) 自验证模块:LLM对自身生成的解决方案进行评估和验证。4) 结果验证器:提供可验证的奖励信号,用于评估解决方案和自验证的质量。5) 策略更新模块:根据奖励信号更新LLM的策略,同时优化问题解决和自验证能力。整个流程是一个迭代过程,模型在每次迭代中不断改进。

关键创新:RISE的关键创新在于将问题解决和自验证整合到一个统一的在线强化学习框架中。与以往方法不同,RISE不是将自验证作为一个独立的后处理步骤,而是将其融入到学习过程中,使模型能够根据验证结果实时调整策略。此外,RISE强调在线学习,模型可以根据即时反馈进行调整,避免了离线学习的滞后性。这种在线自验证机制能够更有效地提高模型的推理能力。

关键设计:RISE的关键设计包括:1) 使用可验证奖励作为反馈信号,指导模型学习问题解决和自验证。2) 设计合适的损失函数,同时优化问题解决和自验证的性能。3) 增加验证计算量,以提高自验证的准确性。4) 采用合适的网络结构,使模型能够有效地进行问题解决和自验证。具体的参数设置和网络结构可能需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RISE框架在多个数学推理基准测试中取得了显著的性能提升。与现有方法相比,RISE不仅提高了模型的解决问题准确率,还增强了其自验证能力。分析表明,在线验证和增加验证计算量能够进一步提高模型的性能。RISE模型在推理过程中表现出更频繁和准确的自验证行为。

🎯 应用场景

RISE框架具有广泛的应用前景,可应用于数学推理、代码生成、自然语言理解等领域。通过提高LLM的自验证能力,可以显著提升其在这些领域的性能和可靠性。该研究对于开发更智能、更值得信赖的人工智能系统具有重要意义,并有望推动人工智能技术在各个行业的应用。

📄 摘要(原文)

Large Language Models (LLMs) show great promise in complex reasoning, with Reinforcement Learning with Verifiable Rewards (RLVR) being a key enhancement strategy. However, a prevalent issue is ``superficial self-reflection'', where models fail to robustly verify their own outputs. We introduce RISE (Reinforcing Reasoning with Self-Verification), a novel online RL framework designed to tackle this. RISE explicitly and simultaneously trains an LLM to improve both its problem-solving and self-verification abilities within a single, integrated RL process. The core mechanism involves leveraging verifiable rewards from an outcome verifier to provide on-the-fly feedback for both solution generation and self-verification tasks. In each iteration, the model generates solutions, then critiques its own on-policy generated solutions, with both trajectories contributing to the policy update. Extensive experiments on diverse mathematical reasoning benchmarks show that RISE consistently improves model's problem-solving accuracy while concurrently fostering strong self-verification skills. Our analyses highlight the advantages of online verification and the benefits of increased verification compute. Additionally, RISE models exhibit more frequent and accurate self-verification behaviors during reasoning. These advantages reinforce RISE as a flexible and effective path towards developing more robust and self-aware reasoners.