LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers

📄 arXiv: 2503.14434v2 📥 PDF

作者: Nikhil Abhyankar, Parshin Shojaee, Chandan K. Reddy

分类: cs.LG, cs.AI, cs.CL, cs.NE

发布日期: 2025-03-18 (更新: 2025-05-27)


💡 一句话要点

LLM-FE:利用LLM作为进化优化器,实现表格数据自动化特征工程

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动化特征工程 大型语言模型 进化算法 表格数据 程序搜索

📋 核心要点

  1. 现有自动特征工程方法依赖预定义转换和人工搜索空间,忽略领域知识,限制了模型性能。
  2. LLM-FE结合进化搜索与LLM的推理能力,将特征工程转化为程序搜索问题,实现自动化特征发现。
  3. 实验结果表明,LLM-FE在多个分类和回归任务中显著优于现有方法,提升了表格预测模型的性能。

📝 摘要(中文)

本文提出了一种名为LLM-FE的新框架,旨在解决表格学习任务中自动特征工程的问题。传统的自动特征工程方法受限于预定义的转换和固定的人工设计搜索空间,常常忽略领域知识。虽然最近基于大型语言模型(LLM)的方法能够整合领域知识,但它们通常依赖于直接提示或仅使用验证分数进行特征选择,未能充分利用先前的特征发现实验的经验,也无法在特征生成和数据驱动的性能之间建立有意义的推理。LLM-FE结合了进化搜索与LLM的领域知识和推理能力,将特征工程形式化为程序搜索问题,其中LLM迭代地提出新的特征转换程序,并由数据驱动的反馈指导搜索过程。实验结果表明,LLM-FE始终优于最先进的基线方法,显著提高了各种分类和回归基准测试中表格预测模型的性能。

🔬 方法详解

问题定义:论文旨在解决表格数据中自动特征工程的难题。现有方法主要痛点在于依赖人工设计的固定搜索空间和预定义的特征转换,无法有效利用领域知识,且缺乏特征生成和模型性能之间的有效反馈机制。

核心思路:论文的核心思路是将特征工程视为一个程序搜索问题,利用LLM的强大推理和代码生成能力,迭代地生成新的特征转换程序。同时,利用数据驱动的反馈(例如验证集上的模型性能)来指导LLM的搜索方向,从而发现更有效的特征。

技术框架:LLM-FE框架主要包含以下几个模块:1) LLM特征生成器:利用LLM生成候选的特征转换程序。2) 特征评估器:使用验证集评估生成的特征的有效性。3) 进化优化器:根据特征评估器的反馈,利用进化算法(例如遗传算法)选择和变异特征转换程序,指导LLM生成下一代特征。4) 特征选择器:从生成的特征集合中选择最终的特征子集,用于训练最终的预测模型。

关键创新:LLM-FE的关键创新在于将LLM作为进化优化器,而非仅仅作为特征生成器。通过进化算法,LLM能够学习到如何生成更有效的特征,并能够利用数据驱动的反馈来改进特征生成策略。这与现有方法中直接prompt LLM或仅使用验证分数进行特征选择的方法有本质区别。

关键设计:LLM-FE的关键设计包括:1) LLM Prompt设计:设计合适的prompt,引导LLM生成有效的特征转换程序,例如提供领域知识、数据统计信息等。2) 进化算法的选择:选择合适的进化算法,例如遗传算法,来优化特征转换程序。3) 特征评估指标:选择合适的特征评估指标,例如验证集上的模型性能,来指导进化过程。4) 特征选择策略:选择合适的特征选择策略,例如基于互信息的特征选择,来选择最终的特征子集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM-FE在多个分类和回归基准数据集上显著优于现有的自动特征工程方法。例如,在某些数据集上,LLM-FE可以将预测模型的性能提升超过10%。与直接使用LLM生成特征的方法相比,LLM-FE能够更有效地利用数据驱动的反馈,从而发现更有效的特征。

🎯 应用场景

LLM-FE可广泛应用于各种需要表格数据预测的领域,例如金融风控、医疗诊断、客户关系管理等。通过自动发现有效的特征,LLM-FE可以显著提升预测模型的性能,降低人工特征工程的成本,并为领域专家提供新的特征发现思路。未来,该方法有望扩展到其他类型的数据,例如文本和图像数据。

📄 摘要(原文)

Automated feature engineering plays a critical role in improving predictive model performance for tabular learning tasks. Traditional automated feature engineering methods are limited by their reliance on pre-defined transformations within fixed, manually designed search spaces, often neglecting domain knowledge. Recent advances using Large Language Models (LLMs) have enabled the integration of domain knowledge into the feature engineering process. However, existing LLM-based approaches use direct prompting or rely solely on validation scores for feature selection, failing to leverage insights from prior feature discovery experiments or establish meaningful reasoning between feature generation and data-driven performance. To address these challenges, we propose LLM-FE, a novel framework that combines evolutionary search with the domain knowledge and reasoning capabilities of LLMs to automatically discover effective features for tabular learning tasks. LLM-FE formulates feature engineering as a program search problem, where LLMs propose new feature transformation programs iteratively, and data-driven feedback guides the search process. Our results demonstrate that LLM-FE consistently outperforms state-of-the-art baselines, significantly enhancing the performance of tabular prediction models across diverse classification and regression benchmarks.