When Self-Belief Misleads: Active Label Acquisition for Reinforcement Learning with Verifiable Rewards

作者: Li Wang, Xiaodong Lu, Xiaohan Wang, Yikun Ban, Jiajun Chai, Wei Lin, Tianhao Peng, Guojun Yin

分类: cs.LG, cs.CL

发布日期: 2026-05-25

🔗 代码/项目: GITHUB

💡 一句话要点

提出RLAVR框架，通过主动学习策略提升可验证奖励强化学习的性能与稳定性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 主动学习 可验证奖励 样本选择 伪标签 纠正优势差距 可靠性估计

📋 核心要点

现有RLVR方法依赖大量真实标签，获取成本高昂；无监督方法则易崩溃。
RLAVR通过主动学习策略，选择性地标注少量样本，结合伪标签稳定训练。
提出CAG指标评估样本价值，CARE策略指导样本选择，实验验证有效性。

📝 摘要（中文）

大型语言模型(LLMs)在可验证奖励强化学习(RLVR)的支持下，推理能力取得了显著进展。然而，RLVR本质上依赖于真实标签进行奖励计算，但在实际场景中获取这些标签的成本往往高得令人望而却步。虽然无监督RLVR范例试图通过在伪标签上训练来规避这个问题，但它们极易受到训练崩溃的影响。此外，不同的样本通常表现出不同的标注价值。在本文中，我们提出了具有主动可验证奖励的强化学习(RLAVR)，它主动获取少量选定样本的真实标签，并将它们与伪标签集成，从而稳定训练动态并提高有限标注预算下的性能。为了识别有价值的样本，我们提出了纠正优势差距(CAG)指标，并分析了样本级别的监督价值。在此基础上，我们引入了用于RLAVR的纠正感知可靠性估计(CARE)，它将oracle CAG准则转化为一种实用的预查询获取策略，以显著提高训练稳定性。在不同的领域、模型系列和模型规模上进行的大量实验证明了我们方法的有效性和通用性。我们的代码可在https://github.com/Lumina04/CARE 获得。

🔬 方法详解

问题定义：现有的可验证奖励强化学习（RLVR）方法在实际应用中面临着标签获取成本高昂的问题。虽然无监督的RLVR方法试图通过使用伪标签来避免这个问题，但它们往往容易出现训练崩溃，导致性能下降。此外，不同样本对于模型学习的价值不同，统一对待所有样本效率低下。

核心思路：RLAVR的核心思路是通过主动学习，智能地选择最有价值的样本进行标注，从而在有限的标注预算下，最大化模型的学习效率和性能。通过结合少量真实标签和大量伪标签，稳定训练过程，避免训练崩溃。

技术框架：RLAVR框架主要包含以下几个阶段：1) 使用伪标签训练RL模型；2) 使用Corrective Advantage Gap (CAG)指标评估每个样本的价值，CAG越大表示该样本对模型纠正错误更有帮助；3) 使用Correction-Aware Reliability Estimation (CARE)策略，基于CAG指标选择需要标注的样本；4) 获取选定样本的真实标签；5) 将真实标签与伪标签结合，重新训练RL模型。这个过程迭代进行，直到达到标注预算或模型性能收敛。

关键创新：RLAVR的关键创新在于提出了Corrective Advantage Gap (CAG)指标和Correction-Aware Reliability Estimation (CARE)策略。CAG指标能够有效评估样本的监督价值，指导样本选择。CARE策略将理想的CAG准则转化为实际可用的预查询获取策略，显著提升训练稳定性。

关键设计：CARE策略的设计是关键。它通过估计样本的可靠性，并结合CAG指标，来选择那些既具有高纠错潜力，又具有较高置信度的样本进行标注。具体的实现细节包括：使用模型预测的不确定性作为样本可靠性的估计，并设计相应的损失函数来平衡真实标签和伪标签的贡献。此外，还需仔细调整CAG指标的计算方式，以适应不同的任务和模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RLAVR在多个领域和模型上都取得了显著的性能提升。例如，在某个具体任务上，RLAVR仅使用少量真实标签，就达到了与使用大量真实标签的传统RLVR方法相当甚至更好的性能。与无监督RLVR方法相比，RLAVR能够有效避免训练崩溃，并取得更高的最终性能。

🎯 应用场景

RLAVR可应用于需要大量标注数据但标注成本高昂的强化学习任务中，例如机器人控制、自动驾驶、游戏AI等。通过主动学习策略，降低标注成本，提高模型性能，加速算法落地。该方法还可扩展到其他需要人工干预的机器学习任务中，具有广泛的应用前景。

📄 摘要（原文）

Large Language Models (LLMs) have achieved remarkable advancements in reasoning capabilities empowered by Reinforcement Learning with Verifiable Rewards (RLVR). Nonetheless, RLVR intrinsically relies on ground-truth labels for reward computation, the acquisition of which is often prohibitively expensive in real-world scenarios. While unsupervised RLVR paradigms attempt to circumvent this by training on pseudo-labels, they are notoriously susceptible to training collapse. Moreover, different samples often exhibit varying annotation values. In this paper, we propose Reinforcement Learning with Active Verifiable Rewards (RLAVR), which actively acquires ground-truth labels for a small set of selected samples and integrates them with pseudo-labels, thereby stabilizing training dynamics and improving performance under limited annotation budgets. To identify valuable samples, we propose the Corrective Advantage Gap (CAG) metric and analyze the sample-level supervision value. Building on this, we introduce Correction-Aware Reliability Estimation for RLAVR (CARE), which translates the oracle CAG criterion into a practical pre-query acquisition policy to substantially improve training stability. Extensive experiments across diverse domains, model families, and model scales demonstrate the effectiveness and generality of our approach. Our code is available at https://github.com/Lumina04/CARE.

When Self-Belief Misleads: Active Label Acquisition for Reinforcement Learning with Verifiable Rewards

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理