Labeled TrustSet Guided: Batch Active Learning with Reinforcement Learning
作者: Guofeng Cui, Yang Liu, Pichao Wang, Hankai Hsu, Xiaohang Sun, Xiang Hao, Zhu Liu
分类: cs.LG
发布日期: 2026-04-14
备注: Published as a conference paper at IJCNN 2026
💡 一句话要点
提出TrustSet与强化学习结合的批量主动学习方法以提升数据标注效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 批量主动学习 强化学习 数据选择 模型优化 长尾问题
📋 核心要点
- 现有的批量主动学习方法主要依赖于未标记数据的分布,未能充分利用标记数据的反馈,导致选择过程的低效。
- 本文提出TrustSet方法,通过从标记数据集中选择信息量最大的样本,并结合强化学习策略,优化未标记数据的选择。
- BRAL-T框架在多个图像分类基准和主动微调任务中表现出色,展示了其在数据选择和模型性能提升方面的显著效果。
📝 摘要(中文)
批量主动学习(BAL)是降低标注成本和提高大规模深度学习模型数据效率的重要技术。传统的BAL方法通常依赖于马哈拉诺比斯距离等指标来平衡不确定性和多样性,但这些方法主要关注未标记数据的分布,未能有效利用标记数据的反馈或模型性能。为了解决这些局限性,本文提出了TrustSet,这是一种从标记数据集中选择最具信息性数据的新方法,确保平衡的类别分布以缓解长尾问题。通过结合TrustSet和基于强化学习的采样策略,提出了Batch Reinforcement Active Learning with TrustSet(BRAL-T)框架,在10个图像分类基准和2个主动微调任务中实现了最先进的结果,展示了其在各个领域的有效性和效率。
🔬 方法详解
问题定义:本文旨在解决传统批量主动学习方法未能有效利用标记数据反馈的问题,导致数据选择效率低下,且未能平衡类别分布。
核心思路:提出TrustSet方法,从标记数据集中选择最具信息性的数据,并通过强化学习策略扩展到未标记数据,以优化模型性能和数据选择过程。
技术框架:BRAL-T框架包括两个主要模块:TrustSet选择模块和基于强化学习的采样策略模块。TrustSet模块负责从标记数据中选择样本,而RL模块则从未标记数据中近似选择高质量的TrustSet候选。
关键创新:TrustSet方法通过优化模型性能而非仅仅保持数据分布,显著区别于CoreSet等传统方法,能够有效减少冗余数据并利用标签信息。
关键设计:在TrustSet选择过程中,采用了平衡类别分布的策略,并在RL模块中设计了适应性采样策略,以确保高质量候选的选择。
🖼️ 关键图片
📊 实验亮点
BRAL-T框架在10个图像分类基准上实现了最先进的结果,相较于传统方法,性能提升幅度达到XX%(具体数据待补充),在主动微调任务中也展现出优异的效果,验证了其在多种任务中的有效性。
🎯 应用场景
该研究的潜在应用领域包括图像分类、自然语言处理和其他需要高效数据标注的机器学习任务。通过优化数据选择过程,BRAL-T框架能够显著降低标注成本,提高模型训练效率,具有广泛的实际价值和未来影响。
📄 摘要(原文)
Batch active learning (BAL) is a crucial technique for reducing labeling costs and improving data efficiency in training large-scale deep learning models. Traditional BAL methods often rely on metrics like Mahalanobis Distance to balance uncertainty and diversity when selecting data for annotation. However, these methods predominantly focus on the distribution of unlabeled data and fail to leverage feedback from labeled data or the model's performance. To address these limitations, we introduce TrustSet, a novel approach that selects the most informative data from the labeled dataset, ensuring a balanced class distribution to mitigate the long-tail problem. Unlike CoreSet, which focuses on maintaining the overall data distribution, TrustSet optimizes the model's performance by pruning redundant data and using label information to refine the selection process. To extend the benefits of TrustSet to the unlabeled pool, we propose a reinforcement learning (RL)-based sampling policy that approximates the selection of high-quality TrustSet candidates from the unlabeled data. Combining TrustSet and RL, we introduce the Batch Reinforcement Active Learning with TrustSet (BRAL-T) framework. BRAL-T achieves state-of-the-art results across 10 image classification benchmarks and 2 active fine-tuning tasks, demonstrating its effectiveness and efficiency in various domains.