What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

作者: Dong Yan, Jian Liang, Yanbo Wang, Shuo Lu, Ran He, Tieniu Tan

分类: cs.LG, cs.AI

发布日期: 2026-03-20

备注: 14 pages, 5 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出SCRL，通过选择性互补强化学习解决测试时推理中弱共识下的标签噪声问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 测试时强化学习 伪标签 标签噪声 大型语言模型 推理 负监督 选择性学习

📋 核心要点

现有测试时强化学习方法在弱共识下易受标签噪声影响，导致错误轨迹被强化。
SCRL通过选择性正伪标签过滤不可靠共识，并引入熵门控负伪标签剪除错误轨迹。
实验表明，SCRL在多个推理基准上显著优于基线，并保持了良好的泛化性和训练稳定性。

📝 摘要（中文）

本文提出了一种名为SCRL（Selective-Complementary Reinforcement Learning）的鲁棒测试时强化学习框架，旨在有效缓解标签噪声放大问题。现有测试时强化学习（TTRL）方法依赖于多数投票共识来获得伪奖励，但在答案分布高度分散的挑战性场景下，共识较弱，可能错误地将不正确的轨迹强化为监督信号。SCRL开发了选择性正伪标签方法，通过强制执行严格的共识标准来过滤不可靠的多数投票结果。作为补充，SCRL引入了熵门控负伪标签方法，这是TTRL中首个负监督机制，能够基于生成的不确定性可靠地剪除不正确的轨迹。在多个推理基准上的大量实验表明，SCRL在受限的 rollout 预算下，相比基线方法取得了显著的改进，同时保持了鲁棒的泛化能力和训练稳定性。

🔬 方法详解

问题定义：现有测试时强化学习（TTRL）方法依赖于从多数投票共识中获得的伪奖励来提升大型语言模型（LLM）的推理能力。然而，当答案分布高度分散时，共识会变得薄弱，导致错误的轨迹被错误地强化，从而损害模型的性能。现有方法主要依赖于正伪标签，缺乏对错误轨迹的有效抑制机制。

核心思路：SCRL的核心思路是结合选择性的正伪标签和互补的负伪标签，以更准确地指导强化学习过程。选择性正伪标签通过更严格的共识标准来过滤掉不可靠的多数投票结果，减少噪声标签的引入。熵门控负伪标签则利用模型生成的不确定性（熵）来识别并惩罚错误的轨迹。

技术框架：SCRL框架主要包含两个关键模块：选择性正伪标签（Selective Positive Pseudo-Labeling）和熵门控负伪标签（Entropy-Gated Negative Pseudo-Labeling）。首先，通过多个LLM生成答案，并计算答案的共识度。对于满足严格共识标准的答案，给予正伪标签奖励。同时，计算每个生成答案的熵值，熵值越高表示不确定性越大，给予负伪标签惩罚。然后，利用这些伪标签训练强化学习模型，优化LLM的推理策略。

关键创新：SCRL的关键创新在于引入了负伪标签机制，这是TTRL领域中的首创。与仅依赖正伪标签的方法不同，SCRL能够主动识别并惩罚错误的轨迹，从而更有效地抑制标签噪声的放大。此外，选择性正伪标签通过更严格的共识标准，进一步提高了正伪标签的可靠性。

关键设计：选择性正伪标签的关键在于共识阈值的设定，需要根据具体任务调整。熵门控负伪标签的关键在于熵值的计算方式和负奖励的比例，需要平衡探索和利用。损失函数结合了正伪标签奖励和负伪标签惩罚，通过调整权重来控制两者的影响。具体参数设置需要通过实验进行优化。

🖼️ 关键图片

📊 实验亮点

SCRL在多个推理基准测试中取得了显著的性能提升。例如，在某些任务上，SCRL相比于基线方法提升了超过10%。实验结果表明，SCRL能够有效地缓解标签噪声的影响，提高模型的泛化能力和训练稳定性。即使在受限的 rollout 预算下，SCRL仍然能够取得优异的性能。

🎯 应用场景

SCRL可应用于各种需要LLM进行推理的场景，尤其是在数据标注成本高昂或难以获取真实标签的情况下。例如，可以用于自动问答、文本摘要、代码生成等任务，提升LLM在这些任务上的准确性和可靠性。该方法还有潜力应用于其他类型的序列决策问题，例如机器人导航和游戏AI。

📄 摘要（原文）

Test-Time Reinforcement Learning (TTRL) enables Large Language Models (LLMs) to enhance reasoning capabilities on unlabeled test streams by deriving pseudo-rewards from majority voting consensus. However, existing TTRL methods rely exclusively on positive pseudo-labeling strategies. Such reliance becomes vulnerable under challenging scenarios where answer distributions are highly dispersed, resulting in weak consensus that inadvertently reinforces incorrect trajectories as supervision signals. In this paper, we propose SCRL (Selective-Complementary Reinforcement Learning), a robust test-time reinforcement learning framework that effectively mitigates label noise amplification. SCRL develops Selective Positive Pseudo-Labeling, which enforces strict consensus criteria to filter unreliable majorities. Complementarily, SCRL introduces Entropy-Gated Negative Pseudo-Labeling, the first negative supervision mechanism in TTRL, to reliably prune incorrect trajectories based on generation uncertainty. Extensive experiments on multiple reasoning benchmarks demonstrate that SCRL achieves substantial improvements over baselines, while maintaining robust generalization and training stability under constrained rollout budgets. Our code is available at https://github.com/Jasper-Yan/SCRL.

What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理