Learn More with Less: Uncertainty Consistency Guided Query Selection for RLVR
作者: Hao Yi, Yulan Hu, Xin Li, Sheng Ouyang, Lizhong Ding, Yong Liu
分类: cs.AI
发布日期: 2026-01-30
💡 一句话要点
提出不确定性一致性引导的查询选择方法,降低RLVR在数学推理任务中的标注成本。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动学习 强化学习 可验证奖励 不确定性一致性 数学推理
📋 核心要点
- 现有RLVR算法在数学推理任务中需要大量标注数据,成本高昂,如何降低标注成本是一个挑战。
- 提出一种基于不确定性一致性的主动学习方法,通过选择信息量更大的样本来减少标注需求。
- 实验结果表明,该方法仅使用30%的数据即可达到全数据集的性能,显著降低了RLVR的标注成本。
📝 摘要(中文)
大型语言模型(LLM)最近通过可验证奖励的强化学习(RLVR)提高了数学推理能力。然而,现有的RLVR算法需要大量的查询预算,导致标注成本高昂。本文研究了是否可以使用更少但信息量更大的查询来获得相似或更优越的性能,从而将主动学习(AL)引入RLVR。我们发现,经典的AL采样策略在这种设置下无法胜过随机选择,因为它们只根据主观不确定性进行选择,而忽略了客观不确定性。本文提出了一种不确定性一致性指标,用于评估主观不确定性与客观不确定性的一致程度。在离线设置中,这种一致性使用点二列相关系数(PBC)来衡量。对于在线训练,由于采样有限和动态变化的输出分布,PBC估计变得困难。因此,我们引入了一种新的在线变体,它由归一化的优势函数和主观不确定性计算得出。理论上,我们证明了在线变体与离线PBC严格负相关,并支持更好的样本选择。实验表明,我们的方法始终优于随机和经典的AL基线,仅使用30%的数据进行训练即可达到完整数据集的性能,从而有效降低了RLVR在推理任务中的成本。
🔬 方法详解
问题定义:现有的基于可验证奖励的强化学习(RLVR)方法在训练大型语言模型进行数学推理时,需要大量的标注数据,这导致了高昂的标注成本。传统的RLVR方法没有充分利用数据中的信息,导致效率低下。因此,如何减少标注数据量,同时保持或提高模型性能,是本文要解决的核心问题。
核心思路:本文的核心思路是引入主动学习(AL),通过选择信息量最大的样本进行标注,从而减少所需的标注数据量。关键在于如何选择“信息量最大”的样本。传统的AL方法通常只关注模型的主观不确定性,而忽略了客观不确定性。本文提出了一种不确定性一致性指标,用于衡量主观不确定性与客观不确定性的一致程度,从而更准确地选择信息量大的样本。
技术框架:整体框架包括离线评估和在线训练两个阶段。在离线评估阶段,使用点二列相关系数(PBC)来衡量主观不确定性与客观不确定性的一致性。在在线训练阶段,由于数据有限和分布动态变化,PBC估计困难,因此提出了一种新的在线变体,基于归一化的优势函数和主观不确定性来计算。该在线变体用于指导样本选择,选择不确定性一致性高的样本进行标注和训练。
关键创新:最重要的技术创新点在于提出了不确定性一致性指标,并将其应用于主动学习中的样本选择。与传统的AL方法只关注主观不确定性不同,本文同时考虑了主观不确定性和客观不确定性,从而更准确地评估样本的信息量。此外,针对在线训练的特点,提出了PBC的在线变体,使其能够适应动态变化的数据分布。
关键设计:离线阶段使用点二列相关系数(PBC)来衡量不确定性一致性,公式为标准定义。在线阶段,提出了PBC的在线变体,通过归一化优势函数和主观不确定性来计算。优势函数用于估计客观奖励,主观不确定性通过模型输出的方差或熵来衡量。在线变体的设计目标是与离线PBC保持负相关,从而保证选择的样本具有较高的一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在数学推理任务中显著优于随机选择和经典的AL基线。具体来说,仅使用30%的数据进行训练,即可达到使用全数据集训练的性能。这表明该方法能够有效地选择信息量大的样本,从而降低标注成本,提高模型训练效率。与随机选择相比,该方法在性能上取得了显著提升。
🎯 应用场景
该研究成果可广泛应用于需要大量标注数据的强化学习任务中,尤其是在自然语言处理、计算机视觉等领域。例如,可以应用于对话系统、机器翻译、图像标注等任务,通过主动学习减少标注成本,提高模型训练效率。此外,该方法还可以推广到其他主动学习场景,例如数据挖掘、异常检测等。
📄 摘要(原文)
Large Language Models (LLMs) have recently improved mathematical reasoning through Reinforcement Learning with Verifiable Reward (RLVR). However, existing RLVR algorithms require large query budgets, making annotation costly. We investigate whether fewer but more informative queries can yield similar or superior performance, introducing active learning (AL) into RLVR. We identify that classic AL sampling strategies fail to outperform random selection in this setting, due to ignoring objective uncertainty when only selecting by subjective uncertainty. This work proposes an uncertainty consistency metric to evaluate how well subjective uncertainty aligns with objective uncertainty. In the offline setting, this alignment is measured using the Point-Biserial Correlation Coefficient (PBC). For online training, because of limited sampling and dynamically shifting output distributions, PBC estimation is difficult. Therefore, we introduce a new online variant, computed from normalized advantage and subjective uncertainty. Theoretically, we prove that the online variant is strictly negatively correlated with offline PBC and supports better sample selection. Experiments show our method consistently outperforms random and classic AL baselines, achieving full-dataset performance while training on only 30% of the data, effectively reducing the cost of RLVR for reasoning tasks.