Adaptive Active Learning for Regression via Reinforcement Learning

📄 arXiv: 2603.10435v1 📥 PDF

作者: Simon D. Nguyen, Troy Russo, Kentaro Hoffman, Tyler H. McCormick

分类: stat.ML, cs.LG

发布日期: 2026-03-11

备注: 33 pages, 103 figures. Main paper (8 pages, 4 figures) plus appendix with proofs and supplemental experimental results. Submitted to UAI2026. Codebase available at https://github.com/thatswhatsimonsaid/WeightedGreedySampling


💡 一句话要点

提出基于强化学习的自适应主动回归学习方法,提升标注效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 主动学习 回归 强化学习 贪婪采样 自适应权重

📋 核心要点

  1. 现有主动回归学习方法,如iGS,使用静态乘法规则平衡多样性和不确定性,难以适应复杂数据分布。
  2. WiGS采用动态加法准则,并通过强化学习训练智能体自适应调整探索-利用平衡。
  3. 实验表明,WiGS在多个数据集上优于iGS等基线方法,尤其在不规则数据分布下提升显著。

📝 摘要(中文)

主动回归学习旨在通过选择最具信息量的样本来降低标注成本。改进的贪婪采样(iGS)是一种重要的方法,它使用静态的乘法规则来平衡特征空间多样性和输出空间不确定性。本文提出加权改进贪婪采样(WiGS),它用动态的加法准则取代了iGS的框架。我们将权重选择建模为一个强化学习问题,使智能体能够在整个学习过程中调整探索-利用的平衡。在18个基准数据集和一个合成环境上的实验表明,WiGS在准确性和标注效率方面都优于iGS和其他基线方法,尤其是在数据密度不规则的领域,在这些领域中,基线的乘法规则会忽略密集区域中的高误差样本。

🔬 方法详解

问题定义:主动回归学习旨在减少数据标注成本,通过选择信息量最大的样本进行标注。现有的改进贪婪采样(iGS)方法使用静态的乘法规则来平衡特征空间的多样性和输出空间的不确定性。这种静态规则在数据分布不均匀的情况下表现不佳,尤其是在数据密集区域,高误差样本容易被忽略。

核心思路:本文的核心思路是将权重选择问题建模为一个强化学习问题。通过训练一个智能体,使其能够根据当前的学习状态动态地调整特征空间多样性和输出空间不确定性之间的平衡。这种自适应的权重调整能够更好地适应不同的数据分布,从而提高标注效率和模型精度。

技术框架:WiGS的整体框架包括以下几个主要模块:1) 样本选择模块:使用加权的贪婪采样方法选择待标注的样本。2) 强化学习智能体:负责根据当前的学习状态(例如,已标注样本的误差分布、特征空间密度等)动态地调整权重。3) 环境:提供奖励信号,例如,标注样本后模型性能的提升。4) 模型训练模块:使用标注后的样本训练回归模型。

关键创新:WiGS的关键创新在于将权重选择问题建模为一个强化学习问题,并使用强化学习智能体动态地调整特征空间多样性和输出空间不确定性之间的平衡。与现有的静态权重方法相比,WiGS能够更好地适应不同的数据分布,从而提高标注效率和模型精度。

关键设计:强化学习智能体使用深度神经网络作为策略网络,输入是当前的学习状态,输出是权重的调整。奖励函数设计为标注样本后模型性能的提升。具体来说,可以使用验证集上的均方误差(MSE)的降低作为奖励信号。智能体使用例如Proximal Policy Optimization (PPO)等算法进行训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在18个基准数据集和1个合成数据集上的实验结果表明,WiGS在准确性和标注效率方面均优于iGS和其他基线方法。尤其是在数据密度不规则的领域,WiGS的性能提升更为显著。例如,在某些数据集上,WiGS在达到相同精度的情况下,标注样本数量减少了10%-20%。

🎯 应用场景

WiGS可应用于各种需要主动回归学习的场景,例如:环境监测(选择最具代表性的监测点进行数据采集)、材料科学(选择信息量最大的实验参数组合进行实验)、金融风控(选择最具风险的交易进行人工审核)等。该方法能够有效降低标注成本,提高模型精度,具有重要的实际应用价值。

📄 摘要(原文)

Active learning for regression reduces labeling costs by selecting the most informative samples. Improved Greedy Sampling is a prominent method that balances feature-space diversity and output-space uncertainty using a static, multiplicative rule. We propose Weighted improved Greedy Sampling (WiGS), which replaces this framework with a dynamic, additive criterion. We formulate weight selection as a reinforcement learning problem, enabling an agent to adapt the exploration-investigation balance throughout learning. Experiments on 18 benchmark datasets and a synthetic environment show WiGS outperforms iGS and other baseline methods in both accuracy and labeling efficiency, particularly in domains with irregular data density where the baseline's multiplicative rule ignores high-error samples in dense regions.