TabH2O: A Unified Foundation Model for Tabular Prediction

📄 arXiv: 2605.18383v1 📥 PDF

作者: Pascal Pfeiffer, Dmitry Gordeev, Mathias Müller, Laura Fink, Joan Salvà Soler, Mark Landry, Branden Murray, Marcos V. Conde, Sri Satish Ambati

分类: cs.LG

发布日期: 2026-05-18

备注: Technical Report - https://tabh2o.h2oai.com/


💡 一句话要点

TabH2O:用于表格预测的统一基础模型,通过单次前向传播实现分类和回归。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格数据 基础模型 上下文学习 统一训练 噪声感知 分类 回归

📋 核心要点

  1. 现有表格数据预测方法通常需要针对分类和回归任务训练单独的模型,增加了计算成本和模型管理的复杂性。
  2. TabH2O通过统一的架构和训练流程,使用单个模型同时处理分类和回归任务,降低了预训练成本并简化了模型部署。
  3. TabH2O在TALENT基准测试中表现出色,优于多个传统机器学习模型,并在大部分测试数据集上取得了前三的排名。

📝 摘要(中文)

本文提出了TabH2O,一个用于表格数据的统一基础模型,它通过上下文学习在单次前向传播中执行分类和回归任务。TabH2O构建于TabICL架构之上,并进行了几项关键修改:(1) 统一训练,通过双头架构,单个模型处理分类和回归,无需单独的模型,降低了总预训练成本;(2) 单阶段预训练,训练稳定性的改进(有界可扩展softmax、阶段间归一化、可学习残差缩放、logit软上限)消除了多阶段课程学习的需要,从而能够从一开始就使用完整长度的序列进行训练;(3) 噪声感知预训练,合成数据集包含显式噪声维度,以训练模型对不相关特征的鲁棒性。在TALENT基准测试(300个数据集)上评估了TabH2O v1(2920万参数),其平均排名为6种评估方法中的2.55,优于经过调整的CatBoost(4.07)、H2O AutoML(4.18)和LightGBM(5.08),与TabPFN v2.6(2.74)具有竞争力,落后于TabICL v2(2.12),同时在81%的测试数据集上名列前三,涵盖分类和回归任务。

🔬 方法详解

问题定义:现有表格数据预测方法,如CatBoost、LightGBM和H2O AutoML,通常需要针对分类和回归任务分别训练不同的模型。这导致了更高的计算成本、更复杂的模型管理,并且难以实现跨任务的知识迁移。此外,现有方法在处理包含大量噪声特征的数据集时,鲁棒性可能不足。

核心思路:TabH2O的核心思路是构建一个统一的表格数据基础模型,该模型能够通过上下文学习,在单次前向传播中同时处理分类和回归任务。通过统一的训练流程和噪声感知预训练,提高模型的效率和鲁棒性。

技术框架:TabH2O基于TabICL架构,并进行了改进。整体架构包含一个Transformer编码器和一个双头输出层,分别用于分类和回归任务。预训练阶段使用合成表格数据集,并通过上下文学习的方式训练模型。关键模块包括:有界可扩展softmax、阶段间归一化、可学习残差缩放和logit软上限,用于提高训练稳定性。

关键创新:TabH2O的关键创新在于其统一的训练流程和噪声感知预训练。统一训练消除了对单独分类和回归模型的需要,降低了预训练成本。噪声感知预训练通过在合成数据中引入噪声维度,提高了模型对不相关特征的鲁棒性。此外,单阶段预训练避免了多阶段课程学习的复杂性。

关键设计:TabH2O v1模型包含2920万参数。使用双头输出层,一个用于分类,一个用于回归。预训练阶段使用合成表格数据集,数据集包含显式噪声维度。训练过程中使用有界可扩展softmax来防止梯度爆炸,使用阶段间归一化来提高训练稳定性,使用可学习残差缩放来控制残差连接的权重,使用logit软上限来限制输出logits的值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TabH2O v1在TALENT基准测试中取得了显著成果,平均排名为2.55(共6种方法),优于经过调优的CatBoost (4.07)、H2O AutoML (4.18) 和 LightGBM (5.08)。虽然略逊于TabICL v2 (2.12),但与TabPFN v2.6 (2.74) 具有竞争力。更重要的是,TabH2O在81%的测试数据集上名列前三,证明了其在各种表格预测任务中的强大性能。

🎯 应用场景

TabH2O可应用于各种表格数据预测场景,包括金融风控、医疗诊断、市场营销等。其统一的架构和高效的推理能力使其能够快速部署到实际应用中,降低了模型开发和维护成本。未来,TabH2O有望成为表格数据分析领域的重要工具,推动相关领域的发展。

📄 摘要(原文)

We present TabH2O, a foundation model for tabular data that performs classification and regression in a single forward pass via in-context learning. TabH2O builds on the TabICL architecture with several key modifications: (1) unified training, a single model handles both classification and regression via a dual-head architecture, eliminating the need for separate models and reducing total pretraining cost; (2) single-stage pretraining, training stability improvements (bounded scalable softmax, inter-stage normalization, learnable residual scaling, logit soft-capping) eliminate the need for multi-stage curriculum learning, enabling training with full-length sequences from the start; and (3) noise-aware pretraining, synthetic datasets include explicit noise dimensions to teach the model robustness to irrelevant features. We evaluate TabH2O v1 (29.2M parameters) on the TALENT benchmark (300 datasets), where it achieves an average rank of 2.55 out of 6 evaluated methods, outperforming tuned CatBoost (4.07), H2O AutoML (4.18), and LightGBM (5.08), competitive with TabPFN v2.6 (2.74), and behind TabICL v2 (2.12), while placing in the top-3 on 81% of the testing datasets across classification and regression tasks.