Can Graphs Improve Tabular Foundation Models?
作者: Franck Le, Keith Grueneberg, Erich Nahum, Vadim Sheinin
分类: cs.LG
发布日期: 2025-12-13
💡 一句话要点
BOLERO:利用图结构先验提升预训练表格数据Transformer模型性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据 图神经网络 预训练模型 Transformer 二分图 行间关系建模 RoBERTa-Tab
📋 核心要点
- 现有表格数据处理方法缺乏对实例间关系的显式建模,忽略了相似样本可能共享相关结果的特性。
- BOLERO通过引入轻量级静态二分图头,将实例与特征/值锚点连接,利用GNN细化行表示,增强RoBERTa-Tab。
- 实验表明,BOLERO在分类和回归任务中均显著优于包括XGBoost、CatBoost等在内的多个强基线模型。
📝 摘要(中文)
表格数据在现实世界系统中至关重要。尽管诸如SAINT、TP-BERTa、TabPFN、TabICL和MITRA等最新的表格Transformer和上下文学习器已经融入了有限的行间推理,但大多数方法仍然缺乏显式机制来建模实例之间的关系,即使相似的样本通常共享相关的结果。本文研究了引入简单的图结构先验是否可以增强预训练的表格Transformer。具体而言,本文提出了BOLERO,一个轻量级的静态二分图头,它增强了RoBERTa-Tab(一个使用掩码token预测进行预训练的RoBERTa风格的表格backbone)。每个实例连接到特征/值锚点;一个小的GNN细化行表示,而backbone保持冻结。本文在TP-BERTa基准测试套件中的80个分类和64个回归数据集上进行了评估,并与包括XGBoost、CatBoost、TabPFN-v2、MITRA、TabICL、TP-BERTa和RoBERTa-Tab在内的强大基线进行了比较。为了确保统计上合理的结论,本文遵循了多数据集评估的最佳实践:对每个数据集的分数差异进行成对Wilcoxon符号秩检验和效应大小(具有置信区间的 median 改进),而不是依赖于竞争对手池的平均秩事后检验。BOLERO在分类和回归中都获得了最多的统计显著性胜利,表明轻量级图先验可以有意义地改进预训练的表格Transformer。
🔬 方法详解
问题定义:现有表格数据处理方法,如TabTransformer和上下文学习器,在建模行间关系方面存在不足,缺乏显式机制来捕捉实例之间的关联性。这限制了模型在处理具有复杂关系的数据集时的性能。
核心思路:本文的核心思路是利用图结构先验知识来增强预训练的表格Transformer模型。通过构建一个二分图,将每个实例连接到其对应的特征和值,从而显式地建模实例之间的关系。这种方法旨在利用图神经网络(GNN)来学习更丰富的行表示,从而提高模型的性能。
技术框架:BOLERO的整体架构包括三个主要部分:预训练的RoBERTa-Tab backbone、二分图构建模块和GNN细化模块。首先,使用RoBERTa-Tab提取表格数据的初始表示。然后,构建一个二分图,其中节点表示实例和特征/值,边表示实例与特征/值之间的连接。最后,使用一个轻量级的GNN在图上进行消息传递,以细化实例的表示。RoBERTa-Tab backbone在训练过程中保持冻结,只训练图头部分。
关键创新:BOLERO的关键创新在于引入了一个轻量级的静态二分图头,该图头将每个实例连接到特征/值锚点,并使用GNN来细化行表示。这种方法与现有方法的本质区别在于,它显式地建模了实例之间的关系,而现有方法通常忽略了这些关系。此外,BOLERO的设计保持了backbone的冻结,从而降低了训练成本。
关键设计:BOLERO的关键设计包括以下几个方面:1) 二分图的构建方式,每个实例连接到其对应的特征和值;2) GNN的选择和配置,使用一个轻量级的GNN来平衡性能和计算成本;3) backbone的冻结,只训练图头部分,以降低训练成本。具体的GNN结构和训练参数等细节未在摘要中详细说明,属于未知信息。
📊 实验亮点
BOLERO在80个分类和64个回归数据集上进行了广泛的实验,并与包括XGBoost、CatBoost、TabPFN-v2等在内的多个强基线模型进行了比较。实验结果表明,BOLERO在分类和回归任务中均取得了统计显著的性能提升,证明了轻量级图先验可以有效增强预训练表格Transformer模型。
🎯 应用场景
该研究成果可广泛应用于各种涉及表格数据的实际场景,如金融风控、医疗诊断、客户关系管理等。通过提升表格数据模型的性能,可以更准确地进行预测和决策,从而带来显著的经济和社会效益。未来,该方法有望进一步扩展到其他类型的数据和任务中。
📄 摘要(原文)
Tabular data are central to many real-world systems. While recent tabular transformers and in-context learners such as SAINT, TP-BERTa, TabPFN, TabICL, and MITRA incorporate limited inter-row reasoning, most approaches still lack an explicit mechanism to model relationships among instances, even though similar samples often share related outcomes. We investigate whether introducing \emph{simple graph priors} can enhance \emph{pretrained tabular transformers}. Concretely, we introduce {BOLERO}, a lightweight, static bipartite graph head that augments {RoBERTa-Tab} (a RoBERTa-style tabular backbone pretrained with masked-token prediction.) Each instance connects to feature/value anchors; a small GNN refines row representations, while the backbone remains frozen. We evaluate on 80 classification and 64 regression datasets from the TP-BERTa benchmark suites, comparing against strong baselines including XGBoost, CatBoost, TabPFN-v2, MITRA, TabICL, TP-BERTa, and RoBERTa-Tab. To ensure statistically sound conclusions, we follow best practices for multi-dataset evaluation: pairwise Wilcoxon signed-rank tests on per-dataset score differences and effect sizes (median improvement with confidence intervals), rather than mean-rank post-hoc tests that depend on the competitor pool. BOLERO achieves the highest number of statistically significant wins across both classification and regression, demonstrating that lightweight graph priors meaningfully improve pretrained tabular transformers.