Real-TabPFN: Improving Tabular Foundation Models via Continued Pre-training With Real-World Data

📄 arXiv: 2507.03971v1 📥 PDF

作者: Anurag Garg, Muhammad Ali, Noah Hollmann, Lennart Purucker, Samuel Müller, Frank Hutter

分类: cs.LG, cs.AI, stat.ME, stat.ML

发布日期: 2025-07-05


💡 一句话要点

Real-TabPFN:通过真实世界数据持续预训练提升表格数据基础模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格数据 基础模型 预训练 持续学习 真实数据

📋 核心要点

  1. 现有表格数据基础模型在真实数据集上的泛化能力不足,尤其是在数据量较小的情况下,限制了其应用。
  2. 论文提出Real-TabPFN,通过在少量精选的真实世界表格数据集上进行持续预训练,提升模型在真实数据上的性能。
  3. 实验结果表明,Real-TabPFN在OpenML AutoML Benchmark的多个数据集上显著优于现有方法,验证了该方法的有效性。

📝 摘要(中文)

表格数据基础模型,如TabPFN,仅使用合成数据进行预训练时,在小数据集上表现出色。本文表明,通过有针对性的持续预训练阶段,可以显著提升其性能。具体而言,我们证明,与使用更广泛、可能包含更多噪声的语料库(如CommonCrawl或GitTables)相比,利用少量、精心策划的大型真实世界数据集进行持续预训练,可以获得更优越的下游预测精度。我们最终的模型Real-TabPFN在OpenML AutoML Benchmark的29个数据集上取得了显著的性能提升。

🔬 方法详解

问题定义:论文旨在解决表格数据基础模型(如TabPFN)在真实世界数据集上的性能瓶颈问题。现有方法主要依赖合成数据进行预训练,导致模型在真实数据上的泛化能力不足,尤其是在数据量有限的情况下。此外,直接使用大规模但噪声较多的语料库(如CommonCrawl)进行预训练,反而会降低模型性能。

核心思路:论文的核心思路是利用少量、高质量的真实世界表格数据集,对预训练的表格数据基础模型进行持续预训练。这种方法旨在使模型更好地适应真实数据的分布,从而提高其在下游任务中的预测精度。选择少量高质量数据集可以避免引入过多噪声,保证预训练的有效性。

技术框架:Real-TabPFN的整体框架包括两个主要阶段:首先,使用合成数据对TabPFN进行初始预训练(沿用原TabPFN的预训练方式)。然后,使用少量精选的真实世界表格数据集对预训练的TabPFN模型进行持续预训练。在持续预训练阶段,模型使用与初始预训练相同的目标函数进行优化。

关键创新:论文的关键创新在于提出了使用少量、高质量的真实世界数据集进行持续预训练的方法,以提升表格数据基础模型在真实数据上的性能。与直接使用大规模噪声数据或仅使用合成数据相比,这种方法能够更有效地提高模型的泛化能力和预测精度。

关键设计:论文的关键设计包括:(1) 精选真实世界数据集:作者没有使用大规模的、可能包含噪声的数据集,而是选择了少量高质量的、具有代表性的真实世界表格数据集。(2) 持续预训练策略:作者采用与初始预训练相同的目标函数和优化方法,对预训练模型进行微调,使其更好地适应真实数据的分布。(3) 模型架构:Real-TabPFN沿用了TabPFN的模型架构,没有进行额外的修改。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Real-TabPFN在OpenML AutoML Benchmark的29个数据集上取得了显著的性能提升。实验结果表明,Real-TabPFN在多个数据集上超越了现有的最先进方法,证明了其在真实世界表格数据上的优越性能。具体提升幅度未知,但摘要中明确指出是“substantial performance gains”。

🎯 应用场景

该研究成果可广泛应用于各种需要表格数据分析的领域,例如金融风控、医疗诊断、市场营销等。通过提升表格数据基础模型在真实数据上的性能,可以降低模型部署的成本和难度,加速相关领域的智能化进程。未来,该方法可以进一步推广到其他类型的数据,例如图像、文本等,构建更通用的基础模型。

📄 摘要(原文)

Foundation models for tabular data, like TabPFN, achieve strong performance on small datasets when pre-trained solely on synthetic data. We show that this performance can be significantly boosted by a targeted continued pre-training phase. Specifically, we demonstrate that leveraging a small, curated collection of large, real-world datasets for continued pre-training yields superior downstream predictive accuracy compared to using broader, potentially noisier corpora like CommonCrawl or GitTables. Our resulting model, Real-TabPFN, achieves substantial performance gains on 29 datasets from the OpenML AutoML Benchmark.