LLM4FS: Leveraging Large Language Models for Feature Selection

📄 arXiv: 2503.24157v4 📥 PDF

作者: Jianhao Li, Xianchao Xiu

分类: cs.LG

发布日期: 2025-03-31 (更新: 2025-12-10)

备注: The experimental section should be expanded

🔗 代码/项目: GITHUB


💡 一句话要点

LLM4FS:利用大语言模型进行特征选择的混合策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 特征选择 混合策略 数据驱动方法 上下文理解

📋 核心要点

  1. 现有特征选择方法在处理复杂数据时,缺乏对上下文信息的有效利用,导致性能瓶颈。
  2. LLM4FS融合LLM的上下文理解能力与传统数据驱动方法的统计可靠性,实现更优的特征选择。
  3. 实验结果表明,LLM4FS在特征选择任务中超越了单独使用LLM或传统数据驱动方法。

📝 摘要(中文)

本文探讨了利用大型语言模型(LLMs)进行自动特征选择的新机遇。首先,我们全面评估了基于LLM的特征选择方法,涵盖了最先进的DeepSeek-R1、GPT-o3-mini和GPT-4.5。然后,我们提出了一种名为LLM4FS的新型混合策略,该策略将LLM与传统数据驱动方法相结合。具体来说,我们将输入数据样本输入LLM,并直接调用传统的数据驱动技术,如随机森林和前向序列选择。值得注意的是,我们的分析表明,这种混合策略利用了LLM的上下文理解能力和传统数据驱动方法的高统计可靠性,从而实现了卓越的特征选择性能,甚至超过了LLM和传统数据驱动方法。最后,我们指出了其在决策制定中的局限性。代码可在https://github.com/xianchaoxiu/LLM4FS获取。

🔬 方法详解

问题定义:论文旨在解决特征选择问题,尤其是在需要理解上下文信息的情况下。传统特征选择方法,如基于统计或信息论的方法,往往忽略了特征之间的语义关系,导致选择的特征可能并非最优。此外,直接使用LLM进行特征选择可能面临计算成本高昂和泛化能力不足的问题。

核心思路:LLM4FS的核心思路是将LLM作为特征选择的先导步骤,利用其强大的上下文理解能力来指导传统数据驱动方法。通过LLM对数据进行初步分析,提取有价值的信息,然后利用传统方法的统计可靠性进行精确的特征选择。这种混合策略旨在结合两者的优势,克服各自的局限性。

技术框架:LLM4FS的整体框架包含以下几个主要阶段:1. 数据输入:将原始数据输入LLM。2. LLM分析:LLM对数据进行分析,提取特征之间的关系和重要性信息。3. 数据驱动方法:利用LLM的分析结果,指导传统数据驱动方法(如随机森林、前向序列选择)进行特征选择。4. 特征选择结果:输出最终选择的特征子集。

关键创新:LLM4FS的关键创新在于其混合策略,它并非简单地将LLM作为黑盒使用,而是将其与传统数据驱动方法有机结合。这种结合方式充分利用了LLM的上下文理解能力和传统方法的统计可靠性,从而实现了更优的特征选择性能。与直接使用LLM进行特征选择相比,LLM4FS降低了计算成本,提高了泛化能力。

关键设计:LLM4FS的关键设计包括:1. 如何将数据输入LLM,例如,可以使用prompt engineering来引导LLM进行分析。2. 如何利用LLM的分析结果来指导传统数据驱动方法,例如,可以使用LLM的输出作为传统方法的先验知识或约束条件。3. 如何选择合适的传统数据驱动方法,例如,可以根据数据的特点选择随机森林、前向序列选择或其他方法。具体的参数设置和网络结构取决于所使用的LLM和传统数据驱动方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了LLM4FS的有效性,结果表明,LLM4FS在特征选择任务中优于单独使用LLM或传统数据驱动方法。具体性能提升幅度未知,但强调了混合策略的优越性。实验使用了DeepSeek-R1、GPT-o3-mini和GPT-4.5等先进的LLM模型,以及随机森林和前向序列选择等传统方法作为对比基线。

🎯 应用场景

LLM4FS在多个领域具有广泛的应用前景,例如金融风控、医疗诊断、自然语言处理等。在金融领域,可以用于选择影响信用评分的关键特征;在医疗领域,可以用于识别与疾病相关的基因或症状;在自然语言处理领域,可以用于选择对文本分类或情感分析有用的词汇或短语。该研究有助于提升决策效率和准确性,为各行业带来实际价值。

📄 摘要(原文)

Recent advances in large language models (LLMs) have provided new opportunities for decision-making, particularly in the task of automated feature selection. In this paper, we first comprehensively evaluate LLM-based feature selection methods, covering the state-of-the-art DeepSeek-R1, GPT-o3-mini, and GPT-4.5. Then, we propose a new hybrid strategy called LLM4FS that integrates LLMs with traditional data-driven methods. Specifically, input data samples into LLMs, and directly call traditional data-driven techniques such as random forest and forward sequential selection. Notably, our analysis reveals that the hybrid strategy leverages the contextual understanding of LLMs and the high statistical reliability of traditional data-driven methods to achieve excellent feature selection performance, even surpassing LLMs and traditional data-driven methods. Finally, we point out the limitations of its application in decision-making. Our code is available at https://github.com/xianchaoxiu/LLM4FS.