Dual Consensus: Escaping from Spurious Majority in Unsupervised RLVR via Two-Stage Vote Mechanism

📄 arXiv: 2603.16223v1 📥 PDF

作者: Kaixuan Du, Meng Cao, Hang Zhang, Yukun Wang, Xiangzhou Huang, Ni Li

分类: cs.LG

发布日期: 2026-03-17

备注: 10 pages, 5 figures


💡 一句话要点

提出双重共识强化学习(DCRL),解决无监督RLVR中伪标签偏差问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无监督学习 强化学习 奖励塑形 大型语言模型 伪标签 双重共识 推理任务

📋 核心要点

  1. 现有无监督RLVR方法依赖伪标签,易受偏差影响,导致模型陷入局部最优解,限制性能提升。
  2. DCRL通过两阶段共识机制,先生成主导响应,再通过解学习探索多样性,从而产生更可靠的学习信号。
  3. 实验表明,DCRL在多个基准测试中超越多数投票,提升Pass@1指标,并展现出更稳定的训练过程。

📝 摘要(中文)

当前用于大型语言模型(LLM)的无标签RLVR方法,如TTRL和Self-reward,在提升LLM在复杂推理任务上的性能方面表现出有效性。然而,这些方法严重依赖于准确的伪标签估计,并且容易收敛到虚假但流行的答案,从而陷入主导模式并限制了进一步的改进。为此,我们提出了一种新颖的自监督训练方法——双重共识强化学习(DCRL),它能够通过两阶段共识机制生成更可靠的学习信号。模型首先充当锚点,产生主导响应;然后充当探索者,通过临时解学习过程生成多样化的辅助信号。最终的训练目标来自这两组信号的调和平均值。值得注意的是,该过程完全在没有外部模型或监督的情况下运行。在八个基准测试和不同的领域中,DCRL始终优于多数投票的Pass@1,同时产生更稳定的训练动态。这些结果表明,DCRL为在没有标签的情况下实现更强的推理能力建立了一条可扩展的路径。

🔬 方法详解

问题定义:论文旨在解决无监督强化学习中的奖励塑形问题,特别是在大型语言模型(LLM)的推理任务中。现有方法,如TTRL和Self-reward,依赖于从模型自身生成的伪标签来训练模型。然而,这些伪标签可能存在偏差,导致模型收敛到次优解,即“虚假多数”问题。这种问题限制了模型进一步提升推理能力。

核心思路:DCRL的核心思路是通过双重共识机制来生成更可靠的奖励信号。首先,模型作为“锚点”,生成其最自信、最常见的响应,代表模型的当前知识。然后,模型通过一个“解学习”过程,暂时忘记其部分知识,从而鼓励模型探索更多样化的响应。最终的奖励信号是基于这两个阶段生成的响应的调和平均值,旨在平衡模型的准确性和探索能力。

技术框架:DCRL包含两个主要阶段:锚定阶段和探索阶段。在锚定阶段,模型生成其最常见的响应。在探索阶段,模型通过一个临时解学习过程生成多样化的辅助信号。解学习可以通过多种方式实现,例如dropout或对抗训练。最终的训练目标是基于锚定阶段和探索阶段生成的信号的调和平均值。整个过程是自监督的,不需要外部标签或模型。

关键创新:DCRL的关键创新在于其双重共识机制,该机制允许模型在利用现有知识的同时探索新的可能性。通过平衡准确性和探索,DCRL能够避免陷入“虚假多数”问题,并实现更强的推理能力。此外,DCRL完全是自监督的,不需要外部标签或模型,使其更易于扩展到大型数据集和模型。

关键设计:DCRL的关键设计包括解学习过程的具体实现方式(例如,dropout的比例或对抗训练的强度),以及如何计算锚定阶段和探索阶段生成的信号的调和平均值。论文可能还涉及一些超参数的调整,以优化模型的性能。损失函数的设计目标是最大化锚定阶段和探索阶段信号的调和平均值,从而鼓励模型既准确又具有探索性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DCRL在八个基准测试中均优于多数投票方法,Pass@1指标得到显著提升,证明了其在解决伪标签偏差问题上的有效性。实验结果还表明,DCRL能够产生更稳定的训练动态,避免模型陷入局部最优解。具体的性能提升数据需要在论文中查找。

🎯 应用场景

DCRL可应用于各种需要大型语言模型进行复杂推理的场景,例如问答系统、文本摘要、代码生成等。该方法无需人工标注数据,降低了训练成本,并能提升模型在开放域环境下的适应性和泛化能力。未来,DCRL有望推动LLM在更多实际应用中发挥更大的作用。

📄 摘要(原文)

Current label-free RLVR approaches for large language models (LLMs), such as TTRL and Self-reward, have demonstrated effectiveness in improving the performance of LLMs on complex reasoning tasks. However, these methods rely heavily on accurate pseudo-label estimation and converge on spurious yet popular answers, thereby trapping in a dominant mode and limiting further improvements. Building on this, we propose Dual Consensus Reinforcement Learning (DCRL), a novel self-supervised training method which is capable of generating more reliable learning signals through a two-stage consensus mechanism. The model initially acts as an anchor, producing dominant responses; then it serves as an explorer, generating diverse auxiliary signals via a temporary unlearning process. The final training target is derived from the harmonic mean of these two signal sets. Notably, the process operates entirely without external models or supervision. Across eight benchmarks and diverse domains, DCRL consistently improves Pass@1 over majority vote while yielding more stable training dynamics. These results demonstrate that DCRL establishes a scalable path toward stronger reasoning without labels.