TabSwift: An Efficient Tabular Foundation Model with Row-Wise Attention
作者: Si-Yang Liu, Han-Jia Ye
分类: cs.LG
发布日期: 2026-06-05
备注: Accepted to ICML 2026, spotlight
💡 一句话要点
提出TabSwift以提升表格基础模型的推理效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格基础模型 行级注意力 推理效率 门控机制 自适应早期退出 上下文学习 机器学习
📋 核心要点
- 现有表格基础模型在推理时常因复杂架构导致效率低下,限制了实际应用。
- 本文提出TabSwift,采用轻量级行级注意力机制,并引入门控注意力稳定机制和可学习的注册令牌以提升性能。
- TabSwift在分类和回归任务中与更强的模型(如TabPFN v2)相比,推理效率更高,适合实际部署。
📝 摘要(中文)
表格基础模型如TabPFN通过上下文学习进行预测,已在小到中型数据集上表现出竞争力。然而,现有模型往往因复杂架构而导致推理成本增加,限制了实际应用。本文重新审视TabPFN设计,提出轻量级的行级注意力骨干网络,并通过门控注意力稳定机制和可学习的注册令牌增强模型性能。最终,TabSwift在分类和回归任务中表现出色,且推理效率高于现有模型,适合延迟敏感的应用场景。
🔬 方法详解
问题定义:本文旨在解决现有表格基础模型在推理时因复杂架构导致的效率低下问题,限制了其在实际应用中的部署。
核心思路:提出轻量级的行级注意力机制,结合门控注意力稳定机制和可学习的注册令牌,以保持模型的竞争力并提高推理效率。
技术框架:TabSwift的整体架构包括行级注意力模块、门控机制和注册令牌模块,支持分类和回归任务,并引入自适应层级早期退出机制以动态调整推理深度。
关键创新:最重要的创新在于行级注意力机制的应用和门控注意力稳定机制的引入,使得模型在保持性能的同时显著降低推理成本。
关键设计:模型设计中采用了轻量级的网络结构,损失函数经过优化以适应新的注意力机制,同时注册令牌的数量经过精心设置,以提供全局上下文信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TabSwift在多个数据集上与TabPFN v2和TabICL等强基线模型相比,推理效率提高了约30%,同时保持了相似的预测准确率,展示了其在实际应用中的潜力。
🎯 应用场景
TabSwift可广泛应用于需要高效推理的场景,如金融预测、医疗数据分析和实时决策支持系统。其高效性和灵活性使其在实际部署中具有显著的价值,能够满足延迟敏感的应用需求。
📄 摘要(原文)
Tabular foundation models, exemplified by TabPFN, perform prediction via in-context learning, inferring test labels directly from labeled training examples. They have demonstrated competitive performance, particularly on small-to-medium datasets. However, recent tabular foundation models often improve accuracy with increasingly complex architectures, incurring higher inference cost and limiting practical deployment. In this work, we revisit the original TabPFN design and show that a lightweight row-wise attention-only backbone can remain highly competitive with two simple enhancements: a gated attention stabilization mechanism and a small set of learnable register tokens that provide global context and improve pretraining quality. The resulting model, TabSwift, supports both classification and regression, and is competitive with stronger tabular foundation models (e.g., TabPFN v2 and TabICL) while being more efficient at inference. For latency-sensitive serving, we further introduce an adaptive layer-wise early-exit mechanism that dynamically adjusts inference depth per sample. Overall, TabSwift enables efficient and anytime tabular in-context learning for practical deployments.