OmniTabBench: Mapping the Empirical Frontiers of GBDTs, Neural Networks, and Foundation Models for Tabular Data at Scale
作者: Dihong Jiang, Ruoqi Cao, Zhiyuan Dang, Li Huang, Qingsong Zhang, Zhiyu Wang, Shihao Piao, Shenggao Zhu, Jianlong Chang, Zhouchen Lin, Qi Tian
分类: cs.LG, cs.AI
发布日期: 2026-04-08
💡 一句话要点
OmniTabBench:大规模表格数据上GBDT、神经网络和基础模型的经验前沿探索
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据 基准测试 GBDT 神经网络 基础模型 元特征分析 模型选择 大规模评估
📋 核心要点
- 传统树集成方法长期主导表格数据任务,但深度神经网络和新兴基础模型对其提出了挑战,目前尚未形成普遍认可的优势范式。
- OmniTabBench通过构建包含3030个数据集的大规模基准测试,并结合大型语言模型进行行业分类,旨在提供更全面、无偏的评估。
- 通过对各类模型进行大规模评估和解耦的元特征分析,揭示了不同模型在不同数据特征下的表现差异,为模型选择提供指导。
📝 摘要(中文)
本文提出了OmniTabBench,迄今为止最大的表格基准测试集,包含3030个数据集,涵盖了来自不同来源的各种任务,并使用大型语言模型按行业进行分类。我们对OmniTabBench上所有模型系列的最新模型进行了前所未有的大规模经验评估,证实了不存在绝对的优胜者。此外,通过解耦的元特征分析,研究了数据集大小、特征类型、特征和目标偏度/峰度等个体属性,阐明了有利于特定模型类别的条件,提供了比以往的复合指标研究更清晰、更具可操作性的指导。
🔬 方法详解
问题定义:现有表格数据基准测试集规模较小(通常少于100个数据集),可能存在评估不足和选择偏差的问题。此外,缺乏对不同模型在不同数据特征下的性能差异的深入理解,难以指导实际应用中的模型选择。
核心思路:构建一个大规模、多样化的表格数据基准测试集,并采用解耦的元特征分析方法,研究不同模型在不同数据特征下的性能表现,从而为模型选择提供更清晰、更具可操作性的指导。
技术框架:OmniTabBench包含3030个数据集,涵盖各种任务和行业。数据集通过大型语言模型进行分类。对GBDT、神经网络和基础模型等各类模型进行大规模评估。采用解耦的元特征分析方法,研究数据集大小、特征类型、特征和目标偏度/峰度等个体属性对模型性能的影响。
关键创新:构建了迄今为止最大的表格数据基准测试集OmniTabBench,并采用解耦的元特征分析方法,揭示了不同模型在不同数据特征下的性能差异。
关键设计:数据集的收集和分类过程,以及元特征的提取和分析方法是关键设计。具体参数设置、损失函数和网络结构等细节取决于所评估的具体模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在OmniTabBench上,没有一种模型能够始终优于其他模型。解耦的元特征分析揭示了不同模型在不同数据特征下的性能差异,例如,GBDT在小规模数据集上表现良好,而神经网络在大规模数据集上更具优势。这些发现为模型选择提供了有价值的指导。
🎯 应用场景
该研究成果可应用于各种表格数据分析场景,例如金融风控、医疗诊断、市场营销等。通过了解不同模型在不同数据特征下的性能表现,可以帮助用户选择最适合其特定任务的模型,从而提高分析效率和准确性。此外,OmniTabBench可以作为未来表格数据模型研究的基准测试平台。
📄 摘要(原文)
While traditional tree-based ensemble methods have long dominated tabular tasks, deep neural networks and emerging foundation models have challenged this primacy, yet no consensus exists on a universally superior paradigm. Existing benchmarks typically contain fewer than 100 datasets, raising concerns about evaluation sufficiency and potential selection biases. To address these limitations, we introduce OmniTabBench, the largest tabular benchmark to date, comprising 3030 datasets spanning diverse tasks that are comprehensively collected from diverse sources and categorized by industry using large language models. We conduct an unprecedented large-scale empirical evaluation of state-of-the-art models from all model families on OmniTabBench, confirming the absence of a dominant winner. Furthermore, through a decoupled metafeature analysis, which examines individual properties such as dataset size, feature types, feature and target skewness/kurtosis, we elucidate conditions favoring specific model categories, providing clearer, more actionable guidance than prior compound-metric studies.