Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

作者: Qinan Yu, Alexa Tartaglini, Peter Hase, Carlos Guestrin, Christopher Potts

分类: cs.CL

发布日期: 2026-04-23

💡 一句话要点

揭示基于结果奖励的强化学习在推理中存在的因果性与可验证性问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 思维链 因果推理 可验证性 奖励函数 语言模型 后训练 推理评估

📋 核心要点

现有基于结果奖励的强化学习（RLVR）在思维链推理中被广泛应用，但其推理过程的可靠性受到质疑。
论文提出推理的因果重要性（CIR）和推理的充分性（SR）两个指标，用于评估推理链的质量。
实验表明，RLVR虽能提高准确率，但不能保证CIR和SR，通过引入SFT或辅助奖励可以改善。

📝 摘要（中文）

本文 критически 评估了基于可验证奖励的强化学习（RLVR）在思维链推理中的应用，该方法已成为语言模型后训练的标准流程。研究重点在于检验通过 RLVR 训练的推理链是否可靠地反映了模型得出答案的过程。为此，论文提出了两个指标：推理的因果重要性（CIR），衡量推理 token 对最终答案的累积影响；推理的充分性（SR），衡量验证者仅基于推理能否得出明确的答案。通过 Qwen2.5 模型系列和 ReasoningGym 任务的实验发现：（1）RLVR 虽然提高了任务准确性，但并未可靠地提高 CIR 或 SR，这使推理在模型性能中的作用受到质疑；（2）在 RLVR 之前进行少量监督微调（SFT）可以弥补 CIR 和 SR 的不足；（3）即使没有 SFT，通过在基于结果的奖励之上应用辅助 CIR/SR 奖励也可以提高 CIR 和 SR。这种联合奖励在匹配 RLVR 准确性的同时，还能产生具有因果重要性和充分性的推理。这些结果表明，RLVR 并不总是导致模型以通常认为的方式依赖推理，但可以通过对后训练程序的简单修改来解决此问题。

🔬 方法详解

问题定义：论文旨在解决现有基于结果奖励的强化学习（RLVR）在训练语言模型进行推理时，其生成的推理链条可能缺乏因果性和可验证性的问题。现有方法虽然能提高任务准确率，但无法保证模型真正依赖推理过程来得出答案，存在“抄近路”或“虚假推理”的风险。这种现象使得我们难以信任模型的推理过程，也限制了模型在需要可靠推理的场景中的应用。

核心思路：论文的核心思路是通过引入两个新的评估指标——推理的因果重要性（CIR）和推理的充分性（SR），来量化推理链条的质量。CIR衡量推理token对最终答案的因果影响，SR衡量验证者仅凭推理链条能否得出明确答案。通过这两个指标，可以更全面地评估RLVR训练出的模型的推理能力，并指导模型训练过程，使其更加依赖于真实的推理过程。

技术框架：论文的技术框架主要包括以下几个部分：1) 使用RLVR训练语言模型（Qwen2.5系列）进行推理任务；2) 使用ReasoningGym任务评估模型性能；3) 引入CIR和SR指标评估推理链条的质量；4) 设计不同的训练策略，包括在RLVR前进行少量SFT，以及在RLVR中加入辅助的CIR/SR奖励；5) 对比不同训练策略下模型的准确率、CIR和SR，分析其对推理能力的影响。

关键创新：论文最重要的技术创新点在于提出了CIR和SR这两个指标，用于量化推理链条的因果性和可验证性。这两个指标为评估和改进基于RLVR的推理模型提供了新的视角和工具。此外，论文还发现，在RLVR前进行少量SFT，或在RLVR中加入辅助的CIR/SR奖励，可以有效提高推理链条的质量，这为改进RLVR训练策略提供了新的思路。

关键设计：CIR的计算方法是，通过逐步屏蔽推理链条中的token，观察最终答案的变化，从而评估每个token对答案的因果影响。SR的计算方法是，训练一个验证者模型，仅基于推理链条来预测答案，如果验证者能够得出明确的答案，则认为推理链条是充分的。辅助CIR/SR奖励的设计是，在RLVR的奖励函数中加入CIR和SR的得分，引导模型生成具有更高因果性和可验证性的推理链条。

🖼️ 关键图片

📊 实验亮点

实验结果表明，虽然RLVR可以提高任务准确率，但并不能保证推理的因果重要性和充分性。在RLVR之前进行少量SFT，或者在RLVR中加入辅助的CIR/SR奖励，可以显著提高CIR和SR，同时保持甚至提高任务准确率。例如，联合奖励方法在匹配RLVR准确性的同时，显著提高了推理的因果重要性和充分性。

🎯 应用场景

该研究成果可应用于需要可信赖推理的各种场景，例如医疗诊断、金融风险评估、法律咨询等。通过提高模型推理的因果性和可验证性，可以增强人们对AI决策的信任，并促进AI在关键领域的应用。未来的研究可以探索更有效的CIR/SR奖励设计方法，以及将该方法应用于更复杂的推理任务。

📄 摘要（原文）

Reinforcement Learning from Verifiable Rewards (RLVR) on chain-of-thought reasoning has become a standard part of language model post-training recipes. A common assumption is that the reasoning chains trained through RLVR reliably represent how a model gets to its answer. In this paper, we develop two metrics for critically examining this assumption: Causal Importance of Reasoning (CIR), which measures the cumulative effect of reasoning tokens on the final answer, and Sufficiency of Reasoning (SR), which measures whether a verifier can arrive at an unambiguous answer based on the reasoning alone. Through experiments with the Qwen2.5 model series and ReasoningGym tasks, we find that: (1) while RLVR does improve task accuracy, it does not reliably improve CIR or SR, calling the role of reasoning in model performance into question; (2) a small amount of SFT before RLVR can be a remedy for low CIR and SR; and (3) CIR and SR can be improved even without SFT by applying auxiliary CIR/SR rewards on top of the outcome-based reward. This joint reward matches the accuracy of RLVR while also leading to causally important and sufficient reasoning. These results show that RLVR does not always lead models to rely on reasoning in the way that is commonly thought, but this issue can be remedied with simple modifications to the post-training procedure.

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理