Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists
作者: Michał Pietruszka, Łukasz Borchmann, Aleksander Jędrosz, Paweł Morawiecki
分类: cs.CL
发布日期: 2024-10-30
💡 一句话要点
提出FeatEng基准,评估LLM在特征工程代码生成中的能力,助力模型迭代。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 特征工程 基准测试 数据科学 XGBoost
📋 核心要点
- 现有方法难以有效评估LLM在数据科学领域,特别是特征工程方面的能力,缺乏专门的基准测试。
- 提出FeatEng基准,通过评估LLM生成的特征工程代码对模型性能的提升来衡量其数据科学能力。
- 通过广泛实验,证明FeatEng能够以较低的成本和较高的效率评估LLM的广泛能力,优于现有方法。
📝 摘要(中文)
本文提出了一个针对大型语言模型(LLM)的基准测试,旨在评估其在数据科学中最需要知识密集型任务之一的能力:编写特征工程代码。该任务不仅需要对底层问题和数据结构有深入的理解,还需要具备领域知识。模型在提示中被提供数据集描述,并要求生成转换该数据集的代码。评估分数来源于在修改后的数据集上训练的XGBoost模型与在原始数据上训练的模型相比所获得的性能提升。通过对最先进模型的广泛评估,并与已建立的基准进行比较,我们证明了我们提出的FeatEng能够经济高效地评估LLM的广泛能力,这与现有方法形成对比。
🔬 方法详解
问题定义:论文旨在解决如何有效评估大型语言模型(LLM)在数据科学领域,特别是特征工程任务中的能力。现有方法要么不够专注,要么成本过高,难以全面评估LLM在理解数据、应用领域知识和生成有效特征工程代码方面的能力。
核心思路:核心思路是设计一个专门的基准测试,该基准测试通过评估LLM生成的特征工程代码对下游模型性能的提升来衡量LLM的数据科学能力。这种方法直接关注LLM在特征工程中的实际效果,避免了间接或主观的评估方式。
技术框架:FeatEng基准测试的整体流程如下:1. 给定LLM一个数据集的描述作为prompt。2. LLM根据prompt生成特征工程代码。3. 使用生成的代码转换原始数据集。4. 在转换后的数据集上训练一个XGBoost模型。5. 将该XGBoost模型的性能与在原始数据集上训练的XGBoost模型的性能进行比较,性能提升作为LLM的评估分数。
关键创新:关键创新在于将LLM生成的特征工程代码的质量与下游模型的性能直接关联起来。通过这种方式,FeatEng能够客观地评估LLM在特征工程方面的能力,并提供一个可量化的指标。此外,FeatEng的设计考虑了评估的效率和成本,使其能够在大规模LLM评估中应用。
关键设计:关键设计包括:1. 数据集描述的prompt设计,需要包含足够的信息,以便LLM能够理解数据并生成有效的特征工程代码。2. 使用XGBoost作为下游模型,因为它是一种常用的、性能良好的机器学习算法,可以有效地评估特征工程的效果。3. 评估指标的选择,使用性能提升作为评估指标,能够直接反映特征工程的有效性。
🖼️ 关键图片
📊 实验亮点
论文提出了FeatEng基准,并使用该基准对多个最先进的LLM进行了评估。实验结果表明,FeatEng能够有效地评估LLM在特征工程方面的能力,并能够区分不同LLM的性能差异。通过与现有基准的比较,证明了FeatEng在评估LLM数据科学能力方面的优势。
🎯 应用场景
该研究成果可应用于自动化特征工程、数据科学助手、以及LLM在数据分析领域的评估和选择。通过FeatEng基准,可以更有效地利用LLM来辅助数据科学家进行特征工程,提高数据分析的效率和质量。未来,该基准可以扩展到更广泛的数据科学任务,并促进LLM在数据科学领域的应用。
📄 摘要(原文)
We present a benchmark for large language models designed to tackle one of the most knowledge-intensive tasks in data science: writing feature engineering code, which requires domain knowledge in addition to a deep understanding of the underlying problem and data structure. The model is provided with a dataset description in a prompt and asked to generate code transforming it. The evaluation score is derived from the improvement achieved by an XGBoost model fit on the modified dataset compared to the original data. By an extensive evaluation of state-of-the-art models and comparison to well-established benchmarks, we demonstrate that the FeatEng of our proposal can cheaply and efficiently assess the broad capabilities of LLMs, in contrast to the existing methods.