CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution
作者: Teng Pan, Yuchen Yan, Zixuan Wang, Ruiqing Zhang, Gaiyang Han, Wanqi Zhang, Weiming Lu, Jun Xiao, Yongliang Shen
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-03-18
备注: Project Page: https://zju-real.github.io/CoVerRL Code: https://github.com/ZJU-REAL/CoVerRL
💡 一句话要点
CoVerRL:通过生成器-验证器协同进化打破无标签推理中的共识陷阱
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无标签强化学习 共识陷阱 生成器-验证器 协同进化 大型语言模型
📋 核心要点
- 现有无标签强化学习方法易陷入“共识陷阱”,即模型过度追求自我一致性,强化系统性错误。
- CoVerRL框架通过生成器和验证器的角色互换,利用多数投票和验证器过滤,实现协同进化。
- 实验表明,CoVerRL在数学推理任务上显著优于现有无标签方法,自我验证准确率大幅提升。
📝 摘要(中文)
无标签强化学习通过将多数投票答案视为伪标签,使大型语言模型能够在没有真实标签监督的情况下提高推理能力。然而,我们发现了一个关键的失效模式:随着训练最大化自我一致性,输出多样性崩溃,导致模型自信地强化逃避检测的系统性错误。我们称之为共识陷阱。为了摆脱它,我们提出了CoVerRL,一个框架,其中单个模型在生成器和验证器角色之间交替,每种能力都引导另一种能力。多数投票为训练验证器提供了嘈杂但信息丰富的监督,而改进的验证器逐步从伪标签中过滤掉自我一致性错误。这种协同进化创造了一个良性循环,在整个训练过程中保持高奖励准确性。跨Qwen和Llama模型系列的实验表明,CoVerRL在数学推理基准测试中优于无标签基线4.7-5.9%。此外,自我验证准确率从55%左右提高到85%以上,证实了两种能力确实在协同进化。
🔬 方法详解
问题定义:论文旨在解决无标签强化学习中,大型语言模型在推理任务中存在的“共识陷阱”问题。现有方法依赖多数投票生成伪标签,但模型过度追求自我一致性,导致输出多样性降低,并可能强化模型固有的系统性错误,最终影响推理性能。
核心思路:论文的核心思路是引入生成器-验证器协同进化机制。模型在训练过程中交替扮演生成器和验证器的角色,生成器负责生成答案,验证器负责评估答案的正确性。通过这种方式,生成器和验证器互相促进,共同提高推理能力。
技术框架:CoVerRL框架包含两个主要模块:生成器和验证器。训练过程如下:1) 使用多数投票生成伪标签,用于训练验证器;2) 验证器评估生成器生成的答案,并过滤掉自我一致性但错误的答案;3) 使用过滤后的伪标签重新训练生成器。这个过程迭代进行,实现生成器和验证器的协同进化。
关键创新:CoVerRL的关键创新在于提出了生成器-验证器协同进化的概念,并将其应用于无标签强化学习。与现有方法相比,CoVerRL能够有效打破“共识陷阱”,避免模型过度依赖自我一致性,从而提高推理性能。
关键设计:CoVerRL的关键设计包括:1) 使用多数投票生成初始伪标签;2) 设计验证器的评估标准,例如使用交叉熵损失函数训练验证器,使其能够区分正确和错误的答案;3) 设计过滤策略,例如设置阈值,过滤掉验证器认为置信度较低的答案。具体的参数设置和网络结构选择取决于具体的任务和模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CoVerRL在Qwen和Llama模型系列上,相较于无标签基线方法,在数学推理基准测试中取得了4.7-5.9%的性能提升。更重要的是,自我验证的准确率从大约55%提高到超过85%,这表明生成器和验证器两种能力确实实现了协同进化,有效打破了共识陷阱。
🎯 应用场景
CoVerRL框架具有广泛的应用前景,可以应用于各种需要大型语言模型进行推理的任务,例如数学问题求解、常识推理、代码生成等。该方法尤其适用于缺乏标注数据的场景,能够有效提高模型的推理能力和泛化性能,降低人工标注成本。未来,该方法有望应用于智能客服、自动驾驶、医疗诊断等领域。
📄 摘要(原文)
Label-free reinforcement learning enables large language models to improve reasoning capabilities without ground-truth supervision, typically by treating majority-voted answers as pseudo-labels. However, we identify a critical failure mode: as training maximizes self-consistency, output diversity collapses, causing the model to confidently reinforce systematic errors that evade detection. We term this the consensus trap. To escape it, we propose CoVerRL, a framework where a single model alternates between generator and verifier roles, with each capability bootstrapping the other. Majority voting provides noisy but informative supervision for training the verifier, while the improving verifier progressively filters self-consistent errors from pseudo-labels. This co-evolution creates a virtuous cycle that maintains high reward accuracy throughout training. Experiments across Qwen and Llama model families demonstrate that CoVerRL outperforms label-free baselines by 4.7-5.9\% on mathematical reasoning benchmarks. Moreover, self-verification accuracy improves from around 55\% to over 85\%, confirming that both capabilities genuinely co-evolve.