Real-TabPFN: Improving Tabular Foundation Models via Continued Pre-training With Real-World Data

作者: Anurag Garg, Muhammad Ali, Noah Hollmann, Lennart Purucker, Samuel Müller, Frank Hutter

分类: cs.LG, cs.AI, stat.ME, stat.ML

发布日期: 2025-07-05

💡 一句话要点

Real-TabPFN：通过真实世界数据持续预训练提升表格数据基础模型性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 表格数据 基础模型 预训练 持续学习 真实数据

📋 核心要点

现有表格数据基础模型在真实数据集上的泛化能力不足，尤其是在数据量较小的情况下，限制了其应用。
论文提出Real-TabPFN，通过在少量精选的真实世界表格数据集上进行持续预训练，提升模型在真实数据上的性能。
实验结果表明，Real-TabPFN在OpenML AutoML Benchmark的多个数据集上显著优于现有方法，验证了该方法的有效性。

📝 摘要（中文）

表格数据基础模型，如TabPFN，仅使用合成数据进行预训练时，在小数据集上表现出色。本文表明，通过有针对性的持续预训练阶段，可以显著提升其性能。具体而言，我们证明，与使用更广泛、可能包含更多噪声的语料库（如CommonCrawl或GitTables）相比，利用少量、精心策划的大型真实世界数据集进行持续预训练，可以获得更优越的下游预测精度。我们最终的模型Real-TabPFN在OpenML AutoML Benchmark的29个数据集上取得了显著的性能提升。

🔬 方法详解

问题定义：论文旨在解决表格数据基础模型（如TabPFN）在真实世界数据集上的性能瓶颈问题。现有方法主要依赖合成数据进行预训练，导致模型在真实数据上的泛化能力不足，尤其是在数据量有限的情况下。此外，直接使用大规模但噪声较多的语料库（如CommonCrawl）进行预训练，反而会降低模型性能。

核心思路：论文的核心思路是利用少量、高质量的真实世界表格数据集，对预训练的表格数据基础模型进行持续预训练。这种方法旨在使模型更好地适应真实数据的分布，从而提高其在下游任务中的预测精度。选择少量高质量数据集可以避免引入过多噪声，保证预训练的有效性。

技术框架：Real-TabPFN的整体框架包括两个主要阶段：首先，使用合成数据对TabPFN进行初始预训练（沿用原TabPFN的预训练方式）。然后，使用少量精选的真实世界表格数据集对预训练的TabPFN模型进行持续预训练。在持续预训练阶段，模型使用与初始预训练相同的目标函数进行优化。

关键创新：论文的关键创新在于提出了使用少量、高质量的真实世界数据集进行持续预训练的方法，以提升表格数据基础模型在真实数据上的性能。与直接使用大规模噪声数据或仅使用合成数据相比，这种方法能够更有效地提高模型的泛化能力和预测精度。

关键设计：论文的关键设计包括：(1) 精选真实世界数据集：作者没有使用大规模的、可能包含噪声的数据集，而是选择了少量高质量的、具有代表性的真实世界表格数据集。(2) 持续预训练策略：作者采用与初始预训练相同的目标函数和优化方法，对预训练模型进行微调，使其更好地适应真实数据的分布。(3) 模型架构：Real-TabPFN沿用了TabPFN的模型架构，没有进行额外的修改。

🖼️ 关键图片

📊 实验亮点

Real-TabPFN在OpenML AutoML Benchmark的29个数据集上取得了显著的性能提升。实验结果表明，Real-TabPFN在多个数据集上超越了现有的最先进方法，证明了其在真实世界表格数据上的优越性能。具体提升幅度未知，但摘要中明确指出是“substantial performance gains”。

🎯 应用场景

该研究成果可广泛应用于各种需要表格数据分析的领域，例如金融风控、医疗诊断、市场营销等。通过提升表格数据基础模型在真实数据上的性能，可以降低模型部署的成本和难度，加速相关领域的智能化进程。未来，该方法可以进一步推广到其他类型的数据，例如图像、文本等，构建更通用的基础模型。

📄 摘要（原文）

Foundation models for tabular data, like TabPFN, achieve strong performance on small datasets when pre-trained solely on synthetic data. We show that this performance can be significantly boosted by a targeted continued pre-training phase. Specifically, we demonstrate that leveraging a small, curated collection of large, real-world datasets for continued pre-training yields superior downstream predictive accuracy compared to using broader, potentially noisier corpora like CommonCrawl or GitTables. Our resulting model, Real-TabPFN, achieves substantial performance gains on 29 datasets from the OpenML AutoML Benchmark.

Real-TabPFN: Improving Tabular Foundation Models via Continued Pre-training With Real-World Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理