LATTEArena: An Evaluation Framework for LLM-powered Tabular Feature Engineering (Extended Version)
作者: Ankai Hao, Ke Chen, Huan Li, Lidan Shou
分类: cs.AI
发布日期: 2026-06-08
备注: 30 pages, 9 figures
💡 一句话要点
提出LATTEArena以解决LLM驱动的表格特征工程评估问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格特征工程 大型语言模型 自动化 评估框架 组件分析 成本效益 机器学习
📋 核心要点
- 现有的表格特征工程方法缺乏标准化平台,导致比较不公平且难以量化各组件的贡献。
- LATTEArena框架通过六维分类法和标准化模块化竞技场,提供了可控的比较环境和多维评估。
- 实验结果显示,树思维结合蒙特卡洛树搜索在成本效益上表现最佳,且不同输出格式在分类和回归任务中各有优势。
📝 摘要(中文)
特征工程在表格数据分析中仍然至关重要,而大型语言模型(LLMs)已成为自动化这一过程的有前景的范式,催生了LLM驱动的自动化表格特征工程(LATTE)。然而,缺乏标准化平台阻碍了公平且具成本意识的比较。此外,复杂的方法设计使得各个组件的具体贡献难以量化。为了解决这些挑战,本文提出了LATTEArena,这是第一个竞争性评估框架,具有六维分类法、标准化模块化竞技场、多维评估以及组件级消融分析。通过广泛评估,我们揭示了16个关键发现,包括树思维与蒙特卡洛树搜索的最佳成本效益等。
🔬 方法详解
问题定义:本文旨在解决LLM驱动的表格特征工程评估缺乏标准化平台的问题,现有方法的复杂性使得各个组件的贡献难以量化。
核心思路:LATTEArena框架通过构建一个标准化的模块化竞技场,允许对不同特征工程方法进行公平的比较,进而揭示各个组件的具体贡献。
技术框架:LATTEArena的整体架构包括六维分类法、标准化模块化竞技场、多维评估指标和组件级消融分析,确保对方法的全面评估。
关键创新:LATTEArena的创新在于其六维分类法和组件级消融分析,使得研究者能够量化每种技术的竞争优势,这是现有方法所缺乏的。
关键设计:框架设计中考虑了性能、成本和鲁棒性等多维评估指标,并通过超过4000个执行日志支持研究者进行新旧技术的对比。
🖼️ 关键图片
📊 实验亮点
实验结果表明,树思维结合蒙特卡洛树搜索在成本效益上表现最佳,且RPN和代码输出格式在分类和回归任务中分别占据主导地位。这些发现为特征工程方法的选择提供了重要的实证依据。
🎯 应用场景
LATTEArena框架具有广泛的应用潜力,能够为研究人员提供一个标准化的环境来评估和比较不同的表格特征工程方法。这将推动特征工程领域的研究进展,并促进新技术的开发与应用,特别是在数据科学和机器学习领域。
📄 摘要(原文)
Feature engineering remains essential for tabular data analysis, and Large Language Models (LLMs) have emerged as a promising paradigm for automating this process, giving rise to LLM-powered AuTomated Tabular feature Engineering (LATTE). However, the absence of standardized platforms prevents fair, cost-aware comparisons. Furthermore, complex methodological designs obscure the specific contributions of individual components; for example, although LFG integrates Tree-of-Thought, few-shot demonstrations, Monte Carlo Tree Search, and natural language generation, the isolated impact of each technique's competitive edge remains unquantified. To address these challenges, we introduce LATTEArena, the first competitive evaluation framework featuring: (1) a six-dimensional taxonomy decomposing 15 representative methods into reusable components; (2) a standardized modular arena for controlled comparison; (3) multi-dimensional assessments covering performance, cost, and robustness; and (4) component-level ablation quantifying each technique's competitive edge. Through extensive evaluations, we reveal 16 key findings, including: (1) Tree-of-Thought with Monte Carlo Tree Search achieves optimal cost-effectiveness; (2) RPN and Code output formats dominate classification and regression tasks, respectively. We publicly release the modular framework and over 4000 execution logs, enabling researchers to seamlessly pit new techniques against existing ones and advance LATTE.