ELF-Gym: Evaluating Large Language Models Generated Features for Tabular Prediction

作者: Yanlin Zhang, Ning Li, Quan Gan, Weinan Zhang, David Wipf, Minjie Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-10-13

💡 一句话要点

提出ELF-Gym，用于评估大型语言模型生成表格数据预测的特征，并揭示其与人类专家特征工程的差距。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 特征工程 表格数据预测 自动化机器学习 模型评估

📋 核心要点

现有评估方法主要关注端到端性能，缺乏对LLM特征工程能力的细粒度分析，难以发现其与人类专家的差距。
ELF-Gym框架通过构建包含专家特征的数据集，并从语义和功能层面评估LLM生成的特征，从而弥补了这一不足。
实验表明，LLM在语义层面能捕获部分专家特征，但在实现层面差距较大，尤其在复杂数据集上表现不佳，存在改进空间。

📝 摘要（中文）

特征工程是机器学习流程中至关重要但耗时且领域相关的任务。大型语言模型（LLM）在自动化数据科学任务（包括特征工程）方面展现出潜力。然而，现有评估主要基于完整机器学习流程的最终性能，缺乏对LLM在特征工程中行为的深入了解。为解决此问题，我们提出了ELF-Gym，一个用于评估LLM生成特征的框架。我们从Kaggle竞赛历史数据中整理了一个新数据集，包含顶级团队使用的251个“黄金”特征。ELF-Gym通过衡量LLM生成特征对下游模型性能的影响，以及通过语义和功能相似性评估其与专家特征的对齐程度，来定量评估LLM生成特征。这种方法更全面地评估了LLM与人类专家之间的差异，并深入了解了LLM可能需要改进的具体领域。例如，使用ELF-Gym，我们实证表明，在最佳情况下，LLM可以在语义上捕获大约56%的黄金特征，但在更严格的实现层面，这种重叠下降到13%。此外，在其他情况下，LLM可能完全失败，尤其是在需要复杂特征的数据集上，这表明存在广泛的改进途径。

🔬 方法详解

问题定义：论文旨在解决如何有效评估大型语言模型（LLM）在表格数据预测任务中自动生成特征的能力。现有方法主要依赖于端到端的模型性能评估，无法深入了解LLM生成的特征与人工设计的特征之间的差异，以及LLM在特征工程方面的优势与不足。这种评估方式的痛点在于缺乏细粒度的分析，难以指导LLM在特征工程方面的改进。

核心思路：论文的核心思路是构建一个专门用于评估LLM生成特征的框架，该框架不仅关注下游模型的性能，还关注LLM生成特征与人工设计的“黄金”特征之间的语义和功能相似性。通过多维度的评估，更全面地了解LLM在特征工程方面的能力，并识别其改进方向。这种设计旨在弥合LLM与人类专家在特征工程方面的差距。

技术框架：ELF-Gym框架包含以下主要组成部分：1) 从Kaggle竞赛中收集包含专家特征的数据集；2) 利用LLM生成特征；3) 通过下游模型性能评估LLM生成特征的有效性；4) 通过语义相似性评估LLM生成特征与专家特征的语义一致性；5) 通过功能相似性评估LLM生成特征与专家特征的功能一致性。整个流程旨在提供一个全面的评估体系，从而深入了解LLM在特征工程方面的能力。

关键创新：该论文的关键创新在于提出了一个专门用于评估LLM生成特征的框架ELF-Gym。与以往的端到端评估方法不同，ELF-Gym关注LLM生成特征的语义和功能，从而更全面地评估LLM在特征工程方面的能力。此外，该框架还构建了一个包含专家特征的数据集，为LLM生成特征的评估提供了基准。

关键设计：ELF-Gym的关键设计包括：1) 数据集的构建，该数据集包含来自Kaggle竞赛的专家特征，作为评估LLM生成特征的“黄金标准”；2) 语义相似性评估，采用自然语言处理技术，衡量LLM生成特征与专家特征的语义一致性；3) 功能相似性评估，通过比较LLM生成特征与专家特征在下游模型中的表现，衡量其功能一致性。具体的参数设置、损失函数和网络结构等技术细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在最佳情况下，LLM可以在语义上捕获大约56%的黄金特征，但在更严格的实现层面，这种重叠下降到13%。此外，LLM在处理需要复杂特征的数据集时表现不佳，表明其在特征工程方面仍有很大的提升空间。这些结果为LLM在特征工程方面的改进提供了重要的指导。

🎯 应用场景

该研究成果可应用于自动化机器学习（AutoML）领域，帮助提升LLM在特征工程方面的能力，降低人工特征工程的成本。此外，该框架还可以用于评估不同LLM在特征工程方面的性能，为选择合适的LLM提供依据。未来，该研究有望推动LLM在数据科学领域的更广泛应用。

📄 摘要（原文）

Crafting effective features is a crucial yet labor-intensive and domain-specific task within machine learning pipelines. Fortunately, recent advancements in Large Language Models (LLMs) have shown promise in automating various data science tasks, including feature engineering. But despite this potential, evaluations thus far are primarily based on the end performance of a complete ML pipeline, providing limited insight into precisely how LLMs behave relative to human experts in feature engineering. To address this gap, we propose ELF-Gym, a framework for Evaluating LLM-generated Features. We curated a new dataset from historical Kaggle competitions, including 251 "golden" features used by top-performing teams. ELF-Gym then quantitatively evaluates LLM-generated features by measuring their impact on downstream model performance as well as their alignment with expert-crafted features through semantic and functional similarity assessments. This approach provides a more comprehensive evaluation of disparities between LLMs and human experts, while offering valuable insights into specific areas where LLMs may have room for improvement. For example, using ELF-Gym we empirically demonstrate that, in the best-case scenario, LLMs can semantically capture approximately 56% of the golden features, but at the more demanding implementation level this overlap drops to 13%. Moreover, in other cases LLMs may fail completely, particularly on datasets that require complex features, indicating broad potential pathways for improvement.

ELF-Gym: Evaluating Large Language Models Generated Features for Tabular Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理