TabPrep: Closing the Feature Engineering Gap in Tabular Benchmarks
作者: Andrej Tschalzev, Nick Erickson, Yuyang Wang, Huzefa Rangwala, Stefan Lüdtke, Heiner Stuckenschmidt, Christian Bartelt
分类: cs.LG
发布日期: 2026-06-01
🔗 代码/项目: GITHUB
💡 一句话要点
TabPrep:弥合表格基准测试中特征工程的差距,提升模型性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据 特征工程 预处理 机器学习 基准测试
📋 核心要点
- 现有表格数据基准测试忽略了特征工程的重要性,导致模型评估与实际应用存在差距。
- TabPrep通过针对特定数据模式的特征生成器,提供轻量级的预处理流程,弥补了这一差距。
- 实验表明,TabPrep能显著提升多种模型在TabArena基准测试上的性能,超越了模型架构创新带来的收益。
📝 摘要(中文)
表格机器学习的进展主要集中在日益复杂的模型架构上。然而,特征工程仍然是实际建模流程中的一个关键但未被充分探索的组成部分,并且在现代基准测试中完全缺失,这造成了一个无法量化的评估差距。本文提出了TabPrep,一个轻量级预处理流程,由精心设计的特征生成器组成,旨在针对三种特定的结构化数据模式。研究表明,许多广泛使用的模型类别对这些模式表现出可预测的盲点,并且仅通过系统的特征工程就可以建立新的峰值性能。在TabArena基准测试中,将TabPrep集成到模型训练和调优中,始终如一地提高了基于树、神经、线性和基础模型的性能,通常超过了仅通过以模型为中心的创新所获得的收益。TabPrep在性能、效率和跨数据集的适用性方面优于以前的自动特征工程方法,从而可以集成到大规模基准测试中。通过发布TabPrep,研究人员可以将特征工程集成到他们的基准测试设置中,从而填补表格评估中长期存在的空白。
🔬 方法详解
问题定义:现有表格数据机器学习的基准测试主要关注模型架构的创新,而忽略了特征工程的重要性。在实际应用中,特征工程往往是提升模型性能的关键步骤,但现有基准测试的缺失导致模型评估结果与实际应用存在偏差。现有方法,如自动特征工程,在性能、效率和泛化性上存在不足,难以集成到大规模基准测试中。
核心思路:TabPrep的核心思路是设计一套轻量级的、针对特定结构化数据模式的特征生成器,通过系统的特征工程来弥补模型在这些模式上的盲点。这种方法旨在提高模型对数据的理解能力,从而提升整体性能。
技术框架:TabPrep是一个预处理流程,包含多个特征生成器,每个生成器针对一种特定的数据模式。该流程可以集成到现有的模型训练和调优流程中,作为数据预处理的一部分。具体流程包括:数据加载、TabPrep特征生成、模型训练和评估。
关键创新:TabPrep的关键创新在于其特征生成器的设计,这些生成器专门针对表格数据中常见的结构化模式,例如数值型特征的统计量、类别型特征的组合等。与通用的自动特征工程方法相比,TabPrep更加高效和可解释,并且能够更好地适应不同数据集的特点。
关键设计:TabPrep的关键设计包括:1) 特征生成器的选择:基于对表格数据模式的分析,选择了能够有效捕捉这些模式的特征生成器。2) 特征生成器的参数设置:针对不同的数据集,可以调整特征生成器的参数,以获得最佳的性能。3) 特征选择:为了避免特征冗余和提高模型训练效率,可以采用特征选择方法,选择最相关的特征。
📊 实验亮点
TabPrep在TabArena基准测试中取得了显著的性能提升。实验结果表明,将TabPrep集成到模型训练和调优中,能够一致性地提高基于树、神经、线性和基础模型的性能,并且通常超过了仅通过模型架构创新所获得的收益。TabPrep在性能、效率和跨数据集的适用性方面优于以前的自动特征工程方法。
🎯 应用场景
TabPrep可广泛应用于表格数据机器学习领域,例如金融风控、医疗诊断、推荐系统等。通过集成TabPrep,可以提升模型在这些领域的性能和泛化能力,从而提高决策的准确性和效率。此外,TabPrep还可以作为基准测试的一部分,用于评估不同模型的特征工程能力。
📄 摘要(原文)
Progress in tabular machine learning has largely focused on increasingly sophisticated model architectures. At the same time, feature engineering remains a critical yet underexplored component of real-world modeling pipelines that is entirely absent from modern benchmarks, which creates an unquantified evaluation gap. In this work, we introduce TabPrep, a lightweight preprocessing pipeline composed of feature generators that are carefully designed to target three specific structural data patterns. We show that many widely used model classes exhibit predictable blind spots to these patterns and that systematic feature engineering alone can establish new peak performance. Across the TabArena benchmark, integrating TabPrep into model training and tuning consistently improves performance for tree-based, neural, linear, and foundation models, often surpassing gains achieved by model-centric innovations alone. TabPrep outperforms previous automated feature engineering approaches in performance, efficiency, and applicability across datasets, enabling integration into large-scale benchmarks. By releasing TabPrep (see https://github.com/atschalz/tabprep), we enable researchers to integrate feature engineering into their benchmarking setup, filling a longstanding gap in tabular evaluations.