LLM-Select: Feature Selection with Large Language Models
作者: Daniel P. Jeong, Zachary C. Lipton, Pradeep Ravikumar
分类: cs.LG, cs.AI, cs.CL, stat.ML
发布日期: 2024-07-02 (更新: 2025-04-17)
备注: Published in Transactions on Machine Learning Research (TMLR), April 2025
💡 一句话要点
LLM-Select:利用大型语言模型进行特征选择,性能媲美传统数据科学方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 特征选择 零样本学习 提示工程 数据科学
📋 核心要点
- 现有数据驱动的特征选择方法依赖于训练数据,在高成本数据采集场景下存在局限性。
- LLM-Select利用大型语言模型的先验知识,仅通过特征名称和任务描述即可进行特征选择。
- 实验表明,LLM-Select在真实数据集上表现出色,性能可与传统数据驱动方法相媲美。
📝 摘要(中文)
本文展示了大型语言模型(LLM)一项令人惊讶的能力:仅给定输入特征名称和预测任务的描述,它们就能够选择最具预测性的特征,其性能可与标准的数据科学工具相媲美。值得注意的是,这些模型在各种查询机制中都表现出这种能力。例如,我们以零样本方式提示LLM,使其输出特征(例如,“血压”)在预测感兴趣的结果(例如,“心力衰竭”)中的数值重要性评分,而无需额外的上下文。我们发现,最新的模型(如GPT-4)可以始终如一地识别最具预测性的特征,而与查询机制和各种提示策略无关。我们通过对真实世界数据的广泛实验来说明这些发现,结果表明,基于LLM的特征选择始终能够获得与LASSO等数据驱动方法相媲美的强大性能,尽管它从未见过下游训练数据。我们的研究结果表明,LLM不仅可用于选择最佳训练特征,还可用于决定首先要收集哪些特征。这可能会使医疗保健和社会科学等领域从业者受益,因为在这些领域中,收集高质量数据的成本很高。
🔬 方法详解
问题定义:传统的特征选择方法需要访问训练数据,这在数据获取成本高昂的领域(如医疗保健和社会科学)中构成挑战。此外,现有方法可能无法有效利用领域知识进行特征选择。因此,如何仅利用特征名称和任务描述,在无需访问训练数据的情况下进行有效的特征选择是一个亟待解决的问题。
核心思路:LLM-Select的核心思路是利用大型语言模型(LLM)中蕴含的丰富先验知识。通过将特征选择问题转化为一个自然语言理解和推理任务,LLM可以根据特征名称和任务描述,推断出特征的重要性。这种方法无需访问训练数据,从而降低了数据获取成本。
技术框架:LLM-Select的整体框架非常简洁。它主要包含以下两个阶段:1) 提示工程:设计合适的提示语,将特征名称和任务描述输入LLM。提示语的设计可以采用不同的策略,例如,要求LLM输出特征的重要性评分,或者直接选择最重要的特征。2) 特征选择:根据LLM的输出结果,选择最重要的特征。例如,可以选择重要性评分最高的K个特征。
关键创新:LLM-Select的关键创新在于它将大型语言模型应用于特征选择任务,并证明了LLM在无需访问训练数据的情况下,也能进行有效的特征选择。这与传统的特征选择方法形成了鲜明对比,后者通常依赖于训练数据来评估特征的重要性。
关键设计:论文中探索了多种提示策略,例如,要求LLM输出特征的重要性评分,或者直接选择最重要的特征。此外,论文还研究了不同LLM(如GPT-4)在特征选择任务中的表现。关键参数包括提示语的设计、LLM的选择以及选择的特征数量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM-Select在真实数据集上表现出色,其性能可与LASSO等传统数据驱动方法相媲美,甚至在某些情况下优于这些方法。例如,GPT-4在多个数据集上都能准确地识别出最重要的特征,而无需访问训练数据。这表明LLM在特征选择方面具有巨大的潜力。
🎯 应用场景
LLM-Select在数据获取成本高昂的领域具有广泛的应用前景,例如医疗保健和社会科学。它可以帮助研究人员和从业者在数据收集之前,选择最具预测性的特征,从而降低数据收集成本,提高研究效率。此外,LLM-Select还可以用于特征工程,帮助人们更好地理解数据和领域知识。
📄 摘要(原文)
In this paper, we demonstrate a surprising capability of large language models (LLMs): given only input feature names and a description of a prediction task, they are capable of selecting the most predictive features, with performance rivaling the standard tools of data science. Remarkably, these models exhibit this capacity across various query mechanisms. For example, we zero-shot prompt an LLM to output a numerical importance score for a feature (e.g., "blood pressure") in predicting an outcome of interest (e.g., "heart failure"), with no additional context. In particular, we find that the latest models, such as GPT-4, can consistently identify the most predictive features regardless of the query mechanism and across various prompting strategies. We illustrate these findings through extensive experiments on real-world data, where we show that LLM-based feature selection consistently achieves strong performance competitive with data-driven methods such as the LASSO, despite never having looked at the downstream training data. Our findings suggest that LLMs may be useful not only for selecting the best features for training but also for deciding which features to collect in the first place. This could benefit practitioners in domains like healthcare and the social sciences, where collecting high-quality data comes at a high cost.