Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

📄 arXiv: 2603.09803v1 📥 PDF

作者: Tiehua Mei, Minxuan Lv, Leiyu Pan, Zhenpeng Su, Hongru Hou, Hengrui Chen, Ao Xu, Deqing Yang

分类: cs.LG

发布日期: 2026-03-10


💡 一句话要点

提出In-Context RLVR,通过上下文强化学习提升大语言模型推理质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文强化学习 推理质量 大语言模型 可验证奖励 示范效用 证据增益 数学问题求解

📋 核心要点

  1. 现有RLVR方法平等对待所有正确解,忽略了推理过程质量差异,可能导致模型学习到错误的推理路径。
  2. 论文提出In-Context RLVR,利用模型自身的上下文学习能力评估推理轨迹的“示范效用”,作为质量信号。
  3. 实验表明,In-Context RLVR在数学基准测试中,相较于标准RLVR,提升了模型准确率和推理质量。

📝 摘要(中文)

基于可验证奖励的强化学习(RLVR)可以提升大型语言模型的推理能力,但它平等对待所有正确的解决方案,可能强化那些偶然得到正确答案的有缺陷的推理轨迹。我们观察到,更好的推理是更好的老师:高质量的解决方案比低质量的解决方案能提供更有效的示范。我们将这种教学能力称为示范效用(Demonstration Utility),并表明策略模型自身的上下文学习能力提供了一种有效的方法来衡量它,从而产生一个称为证据增益(Evidence Gain)的质量信号。为了在训练中使用这个信号,我们引入了In-Context RLVR。通过贝叶斯分析,我们表明这个目标隐式地通过证据增益来重新加权奖励,对高质量的轨迹赋予更高的权重,对低质量的轨迹赋予更低的权重,而不需要昂贵的计算或外部评估器。在数学基准上的实验表明,与标准RLVR相比,在准确性和推理质量方面都有所提高。

🔬 方法详解

问题定义:现有基于可验证奖励的强化学习(RLVR)方法在训练大型语言模型进行推理时,对所有正确的答案给予相同的奖励,忽略了推理过程的质量。这意味着即使推理过程存在缺陷,只要最终答案正确,模型也会得到奖励,从而可能学习到错误的推理路径。这种方法无法区分高质量的推理和侥幸正确的推理,导致模型泛化能力受限。

核心思路:论文的核心思路是利用高质量的推理轨迹作为更好的“示范”,来指导模型的学习。具体来说,论文提出了一种名为“示范效用”(Demonstration Utility)的概念,即高质量的推理轨迹能够更好地帮助模型进行上下文学习。通过衡量推理轨迹的示范效用,可以区分高质量和低质量的推理,从而更有针对性地进行强化学习。

技术框架:In-Context RLVR的整体框架是在标准RLVR的基础上引入了“证据增益”(Evidence Gain)的概念。首先,模型生成一系列推理轨迹,并使用可验证的奖励函数判断答案是否正确。然后,利用模型自身的上下文学习能力来评估每个推理轨迹的示范效用,即证据增益。具体来说,将该轨迹作为上下文示例,让模型预测其他问题的答案,预测准确率越高,则认为该轨迹的示范效用越高。最后,在强化学习过程中,使用证据增益来重新加权奖励,对高质量的轨迹赋予更高的权重,对低质量的轨迹赋予更低的权重。

关键创新:最重要的技术创新点是利用模型自身的上下文学习能力来衡量推理轨迹的质量,从而避免了对昂贵的外部评估器的依赖。传统的RLVR方法需要人工标注或者复杂的规则来判断推理过程的质量,而In-Context RLVR通过证据增益这一指标,实现了对推理质量的自动评估。这种方法不仅降低了训练成本,而且更加灵活和可扩展。

关键设计:关键的设计在于证据增益的计算方式。论文将推理轨迹作为上下文示例,输入到模型中,然后让模型预测其他问题的答案。预测的准确率被用作证据增益的度量。此外,论文还通过贝叶斯分析证明了In-Context RLVR的目标函数隐式地通过证据增益来重新加权奖励,从而保证了训练的有效性。具体的损失函数设计和参数设置在论文中有详细描述,这里不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,In-Context RLVR在数学基准测试中显著优于标准RLVR。具体来说,在某些数据集上,In-Context RLVR的准确率提升了5%以上,并且推理过程的质量也得到了明显改善。这些结果表明,通过利用上下文学习能力来评估推理质量,可以有效地提升模型的推理能力。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理能力的自然语言处理任务中,例如数学问题求解、常识推理、代码生成等。通过提升模型的推理质量,可以提高模型在这些任务上的准确性和可靠性,从而在教育、金融、医疗等领域发挥更大的作用。未来,该方法还可以扩展到其他类型的任务和模型中,进一步提升人工智能的推理能力。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) improves reasoning in large language models but treats all correct solutions equally, potentially reinforcing flawed traces that get correct answers by chance. We observe that better reasoning are better teachers: high-quality solutions serve as more effective demonstrations than low-quality ones. We term this teaching ability Demonstration Utility, and show that the policy model's own in-context learning ability provides an efficient way to measure it, yielding a quality signal termed Evidence Gain. To employ this signal during training, we introduce In-Context RLVR. By Bayesian analysis, we show that this objective implicitly reweights rewards by Evidence Gain, assigning higher weights to high-quality traces and lower weights to low-quality ones, without requiring costly computation or external evaluators. Experiments on mathematical benchmarks show improvements in both accuracy and reasoning quality over standard RLVR.