Mind the Gap? A Distributional Comparison of Real and Synthetic Priors for Tabular Foundation Models
作者: Alex O. Davies, Telmo de Menezes e Silva Filho, Nirav Ajmeri
分类: cs.AI
发布日期: 2026-05-07
💡 一句话要点
对比分析真实与合成表格数据先验分布差异,评估其对表格预训练模型性能的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据 预训练模型 分布比较 合成数据 真实数据 领域泛化 数据先验
📋 核心要点
- 表格预训练模型依赖于不同来源的数据,包括真实数据集和合成数据集,但它们之间的分布差异尚不明确。
- 论文通过比较真实表格数据(网络抓取和精选)与合成表格数据的分布,分析了它们之间的差异。
- 实验结果表明,合成数据与真实数据存在显著分布差异,但这种差异对模型性能的影响并不明显。
📝 摘要(中文)
表格领域的基础模型通常在三种类型的数据集上进行预训练:来自基准仓库的精选数据集、从网络大规模抓取的表格数据,以及从参数化生成先验中采样的合成表格。尽管预训练数据对模型性能至关重要,但我们对这些语料库在分布上的关系以及这种关系对下游性能的影响知之甚少。本文选取了三个典型的、具有代表性的数据集来训练表格基础模型:T4数据集代表网络抓取的语料库,TabFM数据集代表Kaggle的精选表格,TabICL数据集是唯一具有公开参数的、被广泛使用的合成先验。我们使用表格、列和相关性的聚合特征来描述每个语料库,并使用判别器AUC和k-NN覆盖率指标进行比较。我们发现TabICL合成先验在真实表格的空间中占据一个狭窄的区域,并且即使优化超过8.6万个配置的先验超参数也无法弥合这种不匹配。精选和网络抓取的语料库在特征空间中的分布水平上大致可以互换。令人惊讶的是,合成预训练数据和真实表格之间的分布差距对基于特征的邻近度量或TabICL自身的内部表示都没有明显可检测到的性能影响,这表明真实数据分布的覆盖率不是TabICL泛化的主要驱动因素。
🔬 方法详解
问题定义:表格预训练模型依赖于不同来源的预训练数据,包括真实数据集(如网络抓取和精选数据集)和合成数据集。然而,这些不同来源的数据集在分布上存在差异,并且这些差异对预训练模型的下游任务性能的影响尚不清楚。现有方法缺乏对这些数据集分布差异的系统性分析,难以指导预训练数据的选择和生成。
核心思路:本文的核心思路是通过比较不同来源的表格数据集的分布,来分析它们之间的差异,并评估这些差异对预训练模型性能的影响。具体来说,论文选取了三种具有代表性的数据集:T4(网络抓取)、TabFM(精选)和TabICL(合成),并使用多种统计特征来描述它们的分布。通过比较这些特征,可以了解不同数据集之间的差异,并评估这些差异对模型性能的影响。
技术框架:论文的技术框架主要包括以下几个步骤: 1. 数据集选择:选择T4、TabFM和TabICL三个数据集,分别代表网络抓取、精选和合成表格数据。 2. 特征提取:提取表格、列和相关性的聚合特征,用于描述数据集的分布。 3. 分布比较:使用判别器AUC和k-NN覆盖率指标来比较不同数据集的分布。 4. 性能评估:评估分布差异对预训练模型性能的影响。
关键创新:论文的关键创新在于: 1. 系统性地比较了不同来源的表格数据集的分布差异。 2. 揭示了合成数据与真实数据之间存在显著的分布差异。 3. 发现这种分布差异对模型性能的影响并不明显,挑战了以往的认知。
关键设计:论文的关键设计包括: 1. 选择具有代表性的数据集:T4、TabFM和TabICL分别代表不同来源的表格数据,具有广泛的代表性。 2. 使用多种统计特征:表格、列和相关性的聚合特征可以全面地描述数据集的分布。 3. 使用判别器AUC和k-NN覆盖率指标:这些指标可以有效地比较不同数据集的分布。
📊 实验亮点
实验结果表明,TabICL合成先验在真实表格的空间中占据一个狭窄的区域,并且即使优化超过8.6万个配置的先验超参数也无法弥合这种不匹配。令人惊讶的是,合成预训练数据和真实表格之间的分布差距对模型性能的影响并不明显,这表明真实数据分布的覆盖率不是TabICL泛化的主要驱动因素。
🎯 应用场景
该研究成果可应用于表格预训练模型的开发和优化。通过了解不同来源数据的分布差异,可以选择更合适的预训练数据,或者设计更有效的合成数据生成方法,从而提高模型的泛化能力和下游任务性能。此外,该研究还可以指导表格数据的清洗和增强,提高数据质量。
📄 摘要(原文)
Tabular foundation models are pre-trained on one of three classes of corpus: curated datasets drawn from benchmark repositories, tables harvested at scale from the web, or synthetic tables sampled from a parametric generative prior. Despite the centrality of pre-training data to model performance, little is known about how these corpora relate to one another in distribution, and the impact this has on downstream performance. In this work we take three canonical, archetypal datasets used to train tabular foundation models; the T4 dataset represents web-scraped corpora, the TabFM dataset curated tables from Kaggle, and the TabICL dataset as the only well-used synthetic prior with publicly available parameters. We characterise each corpus using aggregate features over whole tables, columns and correlations, and compare them using discriminator AUCs and k-NN coverage metrics. We find that the TabICL synthetic prior occupies a narrow region of the space of real tables, that this mismatch cannot be closed by optimising prior hyper-parameters across more than 86 thousand configurations, and that curated and web-scraped corpora are broadly interchangeable on a distributional level in feature space. Surprisingly, the distributional gap between synthetic pre-training data and real tables has a clearly detectable effect on performance under neither feature-based proximity measures or TabICL's own internal representations, suggesting that coverage of the real-data distribution is not the primary driver of TabICL's generalisation.