A Pre-Registered Causal Partition of Self-Consistency Elicitation and Reward Design in RLVR

📄 arXiv: 2606.05932v1 📥 PDF

作者: Yuze Gao

分类: cs.AI, cs.LG

发布日期: 2026-06-04

备注: 9 pages, 7 figures


💡 一句话要点

提出自一致性引导与奖励设计的因果分解以优化RLVR

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 可验证奖励 自一致性引导 因果分解 奖励设计 系统性偏差 实验验证

📋 核心要点

  1. 现有的奖励设计方法在处理自一致性引导时存在系统性偏差,导致对奖励信号的误解。
  2. 论文提出了一种新的因果分解方法,将自一致性引导与奖励设计信号进行区分,以提高RLVR的推理能力。
  3. 通过实验验证,发现奖励设计的贡献在不同先验强度下变化显著,且提供了可重用的审计工具以支持后续研究。

📝 摘要(中文)

强化学习中的可验证奖励(RLVR)在奖励信号存在偏差时仍能改善推理能力,然而,现有方法将自一致性引导与真实奖励设计信号混淆。本文通过控制的表格GRPO模拟器,提出了一种精确的分解方法,揭示了奖励设计的偏差,并在不同先验强度下测量了各个组成部分的贡献。实验结果表明,奖励设计的估计值在弱先验下为0.139,而在强先验下降至0.05,验证了自一致性交叉点的存在。我们还提供了一个可重用的审计工具,以便其他研究者进行相似的分析。

🔬 方法详解

问题定义:本文旨在解决现有强化学习奖励设计方法中自一致性引导与真实奖励信号混淆的问题,导致对奖励信号的误解和系统性偏差。

核心思路:通过引入因果分解的方法,将奖励信号分解为自一致性引导、奖励设计和无效部分,从而更准确地评估每个部分的贡献。

技术框架:研究使用了一个控制的表格GRPO模拟器,构建了一个精确的分解模型,包含三个主要模块:无效部分、引导部分和奖励设计部分。

关键创新:最重要的创新在于提出了一种新的因果分解方法,能够清晰地区分自一致性引导与奖励设计信号,克服了传统方法的偏差。

关键设计:在实验中,设置了不同的先验强度(ps=0.20至0.80),并通过2x2x2的因子实验设计验证了非加性效应,确保了结果的可靠性。实验还采用了点与界限的初步测试,揭示了强先验下的点识别特性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,在弱先验下,奖励设计的贡献占比为0.139,而在强先验下降至0.05,表明自一致性引导在不同条件下的显著变化。此外,实验确认了非加性效应,交互比率为0.385,提供了新的见解。

🎯 应用场景

该研究的潜在应用领域包括强化学习算法的优化、智能代理的设计以及复杂决策系统的改进。通过更准确的奖励设计,能够提升智能系统在不确定环境中的表现,具有重要的实际价值和未来影响。

📄 摘要(原文)

Reinforcement learning from verifiable rewards (RLVR) improves reasoning even when the reward signal is spurious -- assigning credit to the group-plurality answer rather than a ground-truth verifier. Practitioners commonly interpret naive = acc(TRUE) - acc(RANDOM) as the reward-design effect. We prove this estimand is systematically biased: it conflates self-consistency elicitation (sharpening the policy toward its modal answer via majority pseudo-reward) with genuine reward-design signal. Using a controlled tabular-GRPO simulator we derive an exact telescoping decomposition total = null + elicit + rd and measure each term across five prior-strength levels. The reward-design fraction of the naive estimator ranges from 0.139 at weak prior (ps=0.20) to 0.05 at strong prior (ps=0.80), with the elicitation term flipping sign at the self-consistency crossover. A pre-registered 2x2x2 factorial confirms non-additivity (interaction ratio 0.385; AxC effect -0.089). A points-vs-bounds pilot gate shows strong-prior regimes are point-identified while near-crossover regimes are only bounded. Re-audits of two named published results yield ELICITATION DOMINATED (elicitation share 0.98) and REWARD DESIGN DOMINATED (rd share 1.18) verdicts respectively, demonstrating the diagnostic value of the partition. We pre-commit to submit regardless of flip outcome; a non-flip is a finding of equal standing. We release a reusable one-command harness for any alignment paper to run the same audit.