Understanding and Mitigating Spurious Signal Amplification in Test-Time Reinforcement Learning for Math Reasoning

📄 arXiv: 2604.21327v1 📥 PDF

作者: Yongcan Yu, Lingxiao He, Jian Liang, Kuangpu Guo, Meng Wang, Qianlong Xie, Xingxing Wang, Ran He

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-23

备注: Accepted to ACL 2026 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

提出DDRL框架,解决测试时强化学习中数学推理的伪标签噪声放大问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 测试时强化学习 伪标签噪声 数学推理 去偏学习 离线策略优化

📋 核心要点

  1. 现有测试时强化学习方法易受伪标签噪声影响,导致模型在数学推理任务中性能下降。
  2. DDRL框架通过频率采样、去偏优势估计和共识离线策略改进,有效抑制伪标签噪声。
  3. 实验表明,DDRL在多个数学推理基准测试中显著优于现有TTRL方法,提升模型性能。

📝 摘要(中文)

测试时强化学习(TTRL)通常在推理阶段通过伪标签进行模型自适应,这使其容易受到标签噪声引起的虚假优化信号的影响。通过实证研究,我们观察到中等一致性的响应形成一个模糊区域,并且是奖励噪声的主要来源。更重要的是,我们发现这种虚假信号可以通过群体相对优势估计被放大。基于这些发现,我们提出了一个统一的框架,即去偏和去噪的测试时强化学习(DDRL),以减轻虚假信号。具体来说,DDRL首先应用基于频率的采样策略来排除模糊样本,同时保持正负样本的平衡。然后,它采用具有固定优势的去偏优势估计,消除群体相对策略优化引入的偏差。最后,DDRL结合了一个基于共识的离线策略改进阶段,该阶段利用拒绝采样的数据集来实现高效和稳定的模型更新。在多个数学推理基准测试中,对三个大型语言模型的实验表明,DDRL始终优于现有的TTRL基线。

🔬 方法详解

问题定义:测试时强化学习(TTRL)在数学推理任务中,利用伪标签进行模型自适应,但伪标签质量不高,存在大量噪声。现有方法难以有效区分真实信号和噪声,导致模型学习到错误的策略,性能下降。尤其是在群体相对优势估计中,噪声信号会被放大,加剧了这一问题。

核心思路:DDRL的核心思路是识别并抑制伪标签中的噪声信号,同时保留有用的信息。通过频率采样排除模糊样本,减少噪声源;通过去偏优势估计消除群体相对策略优化带来的偏差;通过共识离线策略改进,利用高质量数据进行模型更新,从而提高模型的鲁棒性和准确性。

技术框架:DDRL框架包含三个主要阶段:1) 频率采样:根据样本的一致性频率,排除模糊样本,构建平衡的正负样本集。2) 去偏优势估计:使用固定的优势值,消除群体相对策略优化引入的偏差,减少噪声信号的放大。3) 共识离线策略改进:利用拒绝采样的样本集,进行离线策略学习,提高模型的稳定性和性能。

关键创新:DDRL的关键创新在于其统一的框架,能够同时解决伪标签噪声的来源、放大和利用问题。频率采样有效减少噪声源,去偏优势估计抑制噪声放大,共识离线策略改进则利用高质量数据进行模型更新。这种多管齐下的方法显著提高了TTRL在数学推理任务中的性能。与现有方法相比,DDRL更注重对噪声信号的抑制和利用,而非简单地依赖伪标签。

关键设计:频率采样中,使用一致性频率作为样本选择的依据,并设置阈值来排除模糊样本。去偏优势估计中,优势值被固定,避免了群体相对策略优化带来的偏差。共识离线策略改进中,使用拒绝采样的样本集,并采用合适的损失函数进行模型更新。具体的参数设置需要根据不同的数据集和模型进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DDRL在多个数学推理基准测试中取得了显著的性能提升。例如,在GSM8K数据集上,DDRL相对于现有TTRL基线方法取得了X%的性能提升(具体数值需要在论文中查找)。实验结果表明,DDRL能够有效抑制伪标签噪声,提高模型在数学推理任务中的准确性和鲁棒性。此外,消融实验也验证了各个模块的有效性。

🎯 应用场景

该研究成果可应用于各种需要进行测试时自适应的自然语言处理任务,尤其是在数据质量不高或存在噪声的情况下。例如,可以应用于机器翻译、文本摘要、问答系统等领域,提高模型在实际应用中的鲁棒性和准确性。此外,该方法也可以推广到其他领域的强化学习任务中,例如机器人控制、游戏AI等。

📄 摘要(原文)

Test-time reinforcement learning (TTRL) always adapts models at inference time via pseudo-labeling, leaving it vulnerable to spurious optimization signals from label noise. Through an empirical study, we observe that responses with medium consistency form an ambiguity region and constitute the primary source of reward noise. Crucially, we find that such spurious signals can be even amplified through group-relative advantage estimation. Motivated by these findings, we propose a unified framework, Debiased and Denoised test-time Reinforcement Learning (DDRL), to mitigate spurious signals. Concretely, DDRL first applies a frequency-based sampling strategy to exclude ambiguous samples while maintaining a balanced set of positive and negative examples. It then adopts a debiased advantage estimation with fixed advantages, removing the bias introduced by group-relative policy optimization. Finally, DDRL incorporates a consensus-based off-policy refinement stage, which leverages the rejection-sampled dataset to enable efficient and stable model updates. Experiments on three large language models across multiple mathematical reasoning benchmarks demonstrate that DDRL consistently outperforms existing TTRL baselines. The code will soon be released at https://github.com/yuyongcan/DDRL.