Sampling-guided exploration of active feature selection policies

📄 arXiv: 2603.15110v1 📥 PDF

作者: Gabriel Bernardino, Anders Jonsson, Patrick Clarysse, Nicolas Duchateau

分类: cs.LG, cs.CV

发布日期: 2026-03-16


💡 一句话要点

提出基于采样指导的主动特征选择策略,提升高维数据分类性能并降低特征获取成本。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 主动特征选择 强化学习 高维数据 特征获取成本 马尔可夫决策过程

📋 核心要点

  1. 现有特征选择方法在高维数据和实例差异性大的情况下,难以兼顾预测性能和特征获取成本。
  2. 提出一种基于强化学习的主动特征选择框架,通过采样指导和后拟合正则化,优化特征组合序列。
  3. 实验结果表明,该方法在多个二元分类数据集上,实现了比现有技术更高的准确性和更低的策略复杂性。

📝 摘要(中文)

针对机器学习预测模型中特征选择在性能和特征获取成本方面的挑战,尤其是在全局特征选择受限于部分特征仅对特定实例有益的情况下,本文提出了一种强化学习方法,用于顺序推荐下一个要获取的模态,以达到最佳的信息/成本比。该方法基于已获取的实例特定信息,将问题建模为马尔可夫决策过程,其中状态的维度在episode中变化,避免了数据插补。为了处理更大规模的数据集,本文提出了两种贡献:1) 扩展框架,采用基于启发式的策略,专注于最有希望的特征组合;2) 引入后拟合正则化策略,减少不同特征组合的数量,从而产生紧凑的决策序列。在四个二元分类数据集(其中一个涉及高维变量)上进行了测试,最大数据集包含56个特征和4500个样本。实验结果表明,该方法在准确性和策略复杂性方面均优于现有技术。

🔬 方法详解

问题定义:论文旨在解决机器学习模型中特征选择的问题,特别是在高维数据和特征获取成本较高的情况下。现有方法通常采用全局特征选择,忽略了不同实例对不同特征的需求差异,并且在处理大量特征时计算复杂度过高。此外,数据插补等预处理方法可能会引入偏差。

核心思路:论文的核心思路是利用强化学习,根据已获取的实例特定信息,动态地选择下一个要获取的特征。通过将特征选择过程建模为马尔可夫决策过程,智能体可以学习到一种策略,以最小的特征获取成本达到最佳的预测性能。为了应对高维特征空间,引入了启发式采样和后拟合正则化。

技术框架:整体框架包含以下几个主要模块:1) 状态表示:基于已获取的特征值,构建实例的当前状态。2) 动作空间:可选择的下一个要获取的特征。3) 奖励函数:综合考虑预测性能和特征获取成本。4) 强化学习智能体:学习最优的特征选择策略。5) 启发式采样:减少需要考虑的特征组合数量。6) 后拟合正则化:减少最终策略的复杂性。

关键创新:论文的关键创新在于:1) 提出了一种基于强化学习的主动特征选择框架,能够根据实例的特定信息动态地选择特征。2) 引入了启发式采样和后拟合正则化,有效地降低了高维特征空间的搜索复杂度。3) 将特征选择建模为马尔可夫决策过程,避免了数据插补等预处理步骤。

关键设计:启发式采样策略的具体实现方式未知,但其目标是优先选择最有希望的特征组合。后拟合正则化策略旨在减少最终策略的复杂性,具体方法未知,可能涉及到对策略参数的稀疏性约束。强化学习智能体可以使用任何合适的算法,例如Q-learning或策略梯度方法。奖励函数的设计需要仔细权衡预测性能和特征获取成本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在四个二元分类数据集上,包括一个包含56个特征和4500个样本的大型数据集,均取得了优于现有技术的结果。在准确性和策略复杂性方面均有提升,表明该方法能够有效地在高维特征空间中进行特征选择,并降低特征获取成本。具体的性能提升幅度未知,需要参考论文原文。

🎯 应用场景

该研究成果可应用于医疗诊断、金融风控、智能推荐等领域,在这些领域中,获取特征的成本较高,且不同用户或实例对不同特征的需求存在差异。通过主动特征选择,可以降低数据采集成本,提高模型预测精度,并为个性化服务提供支持。未来可进一步探索该方法在更大规模、更复杂数据集上的应用。

📄 摘要(原文)

Determining the most appropriate features for machine learning predictive models is challenging regarding performance and feature acquisition costs. In particular, global feature choice is limited given that some features will only benefit a subset of instances. In previous work, we proposed a reinforcement learning approach to sequentially recommend which modality to acquire next to reach the best information/cost ratio, based on the instance-specific information already acquired. We formulated the problem as a Markov Decision Process where the state's dimensionality changes during the episode, avoiding data imputation, contrary to existing works. However, this only allowed processing a small number of features, as all possible combinations of features were considered. Here, we address these limitations with two contributions: 1) we expand our framework to larger datasets with a heuristic-based strategy that focuses on the most promising feature combinations, and 2) we introduce a post-fit regularisation strategy that reduces the number of different feature combinations, leading to compact sequences of decisions. We tested our method on four binary classification datasets (one involving high-dimensional variables), the largest of which had 56 features and 4500 samples. We obtained better performance than state-of-the-art methods, both in terms of accuracy and policy complexity.