Speedrunning Tabular Foundation Model Pretraining

📄 arXiv: 2606.03681v1 📥 PDF

作者: Salih Bora Ozturk, Alexander Pfefferle, Frank Hutter

分类: cs.LG

发布日期: 2026-06-02

🔗 代码/项目: GITHUB


💡 一句话要点

提出社区速度竞赛以加速表格基础模型预训练

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格基础模型 预训练 速度竞赛 机器学习 社区协作 性能优化 数据集

📋 核心要点

  1. 预训练成本高昂,成为表格基础模型研究的主要瓶颈,限制了新方法的快速迭代。
  2. 提出社区速度竞赛,允许贡献者通过修改训练脚本来竞争加速预训练过程,推动技术进步。
  3. 当前最佳记录在0.92分钟内达到目标,相比基线实现了81倍的加速,显著提升了效率。

📝 摘要(中文)

预训练成本是表格基础模型研究的主要瓶颈,减缓了新架构、先验和优化思想的迭代周期。然而,社区缺乏简单的方式来比较和积累预训练的加速。本文引入了nanoTabPFN的社区速度竞赛:贡献者修改单文件训练脚本,竞争在使用一台NVIDIA L40S GPU的情况下,达到固定的下游ROC AUC目标。当前最佳记录在0.92分钟内达到目标,相较于74.32分钟的基线实现了81倍的加速,同时使用了22倍更少的合成数据集。速度竞赛格式为社区提供了一个简单的协议,以添加、验证和叠加预训练的改进,排行榜对贡献开放。代码和记录可在https://github.com/borawhocodess/modded-nanotabpfn获取。

🔬 方法详解

问题定义:本文旨在解决表格基础模型预训练过程中的高成本和低效率问题。现有方法缺乏有效的比较和积累预训练加速的方式,导致研究进展缓慢。

核心思路:通过引入社区速度竞赛,鼓励研究者在固定条件下优化预训练过程,促进技术的快速迭代和共享。竞赛形式使得不同的贡献者能够在相同的基准上进行比较,推动整体性能提升。

技术框架:整体流程包括设置固定的下游ROC AUC目标,使用NVIDIA L40S GPU进行训练,贡献者通过修改单文件训练脚本来进行实验。每个参与者的结果将被记录并在排行榜上展示,形成良性竞争。

关键创新:最重要的创新在于引入了社区速度竞赛的概念,使得预训练的加速成为一种可量化和可比较的活动。这种方法与传统的单一研究者优化方法本质上不同,强调了社区协作的重要性。

关键设计:在竞赛中,参与者使用的合成数据集数量减少至22倍,同时在0.92分钟内达到目标,显示出极高的效率。训练脚本的简化设计使得参与者能够快速上手并进行实验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,当前最佳记录在0.92分钟内达到下游ROC AUC目标,相比于74.32分钟的基线实现了81倍的加速,同时使用了22倍更少的合成数据集。这一显著提升证明了速度竞赛的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括机器学习模型的快速开发和优化,尤其是在需要频繁迭代的表格数据分析场景中。通过加速预训练过程,研究者能够更快地测试新架构和优化策略,从而推动整个领域的进步。未来,该方法可能会被广泛应用于其他类型的模型训练中,提升整体研究效率。

📄 摘要(原文)

Pretraining cost is a major bottleneck for research on tabular foundation models, slowing the iteration cycle for new architectures, priors, and optimization ideas. Yet the community lacks a simple way to compare and accumulate pretraining speedups. We introduce a community speedrun for nanoTabPFN: contributors modify a single-file training script and compete to reach a fixed downstream ROC AUC target on subsampled TabArena using one NVIDIA L40S GPU. The current best record reaches the target in 0.92 minutes, an 81x speedup over the 74.32 minute baseline while using 22x fewer synthetic datasets. The speedrun format provides a simple protocol for the community to add, verify, and stack pretraining improvements, with the leaderboard open to contributions. Code and records are available at https://github.com/borawhocodess/modded-nanotabpfn.