MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification

📄 arXiv: 2605.11408v1 📥 PDF

作者: Bo Zheng, Yudong Chen, Zihua Xiong, Shuai Fang, Peidong He, Yang Yang, Sheng Guo

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-12


💡 一句话要点

MaskTab:面向工业分类的可扩展掩码表格预训练,结合缩放法则与知识蒸馏

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格数据 预训练 掩码学习 缺失值处理 知识蒸馏

📋 核心要点

  1. 工业表格数据面临高维、缺失值多、标注数据稀缺等挑战,传统方法依赖手工特征工程,缺乏通用的自监督学习框架。
  2. MaskTab通过可学习token编码缺失值,区分结构性缺失和随机dropout,并采用双路径架构协调掩码重建和任务监督。
  3. MaskTab在工业规模数据集上取得了显著的性能提升,AUC提升5.04%,KS提升8.28%,并且蒸馏后的轻量级模型依然表现出色。

📝 摘要(中文)

表格数据是金融、医疗等高风险决策系统的基础。然而,工业表格数据集本质上是困难的:高维、充满缺失值,且很少有大规模标注。虽然基础模型已经彻底改变了视觉和语言领域,但表格学习仍然依赖于手工特征,并且缺乏通用的自监督框架。我们提出了MaskTab,一个专为工业规模表格数据设计的统一预训练框架。MaskTab通过专用的可学习token编码缺失值,使模型能够区分结构性缺失和随机dropout。它联合优化混合监督预训练方案——利用双路径架构来协调掩码重建与特定任务监督——以及MoE增强损失,该损失自适应地通过专门的子网络路由特征。在工业规模的基准测试中,在严格的缩放下,它比现有技术实现了+5.04%的AUC和+8.28%的KS。此外,其表示有效地提炼成轻量级模型,在严格的延迟和可解释性约束下,产生+2.55%的AUC和+4.85%的KS,同时提高了对分布偏移的鲁棒性。我们的工作表明,当尊重表格数据的结构特性时,表格数据可以进行基础模型处理。

🔬 方法详解

问题定义:工业界表格数据普遍存在高维、缺失值多、标注数据稀缺等问题,传统表格数据处理方法依赖于手工特征工程,泛化能力差,且缺乏类似图像和文本领域的通用预训练模型。现有方法难以有效处理缺失值,并且缺乏有效的自监督学习策略,导致模型性能受限。

核心思路:MaskTab的核心思路是设计一个专门针对表格数据的预训练框架,通过掩码(Mask)部分特征,并利用模型重建这些被掩码的特征,从而学习到表格数据的内在结构和表示。同时,利用辅助任务进行监督学习,提升模型的泛化能力和特定任务的性能。通过可学习的token来区分不同类型的缺失值,从而更好地利用缺失值信息。

技术框架:MaskTab采用双路径架构,一条路径用于掩码特征重建,另一条路径用于特定任务的监督学习。模型首先通过嵌入层将表格数据转换为向量表示,然后通过Transformer编码器进行特征提取。对于缺失值,使用专门的可学习token进行编码。在预训练阶段,模型同时优化掩码重建损失和监督学习损失。为了提升模型的容量和表达能力,采用了MoE(Mixture of Experts)结构,允许模型根据输入特征自适应地选择不同的子网络进行处理。

关键创新:MaskTab的关键创新在于:1) 提出了针对表格数据的掩码预训练方法,能够有效学习表格数据的内在结构;2) 使用可学习token编码缺失值,区分结构性缺失和随机dropout;3) 采用双路径架构,联合优化掩码重建和监督学习;4) 利用MoE结构提升模型容量和表达能力。

关键设计:MaskTab的关键设计包括:1) 掩码策略:随机掩码部分特征,并利用模型重建这些被掩码的特征;2) 缺失值编码:使用专门的可学习token编码缺失值,区分结构性缺失和随机dropout;3) 损失函数:联合优化掩码重建损失和监督学习损失,其中掩码重建损失采用均方误差或交叉熵损失,监督学习损失根据具体任务选择;4) MoE结构:采用稀疏门控机制,允许模型根据输入特征自适应地选择不同的子网络进行处理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MaskTab在工业规模的基准测试中取得了显著的性能提升,AUC提升5.04%,KS提升8.28%,超过了现有的表格数据处理方法。通过知识蒸馏,可以将预训练模型迁移到轻量级模型,在严格的延迟和可解释性约束下,AUC提升2.55%,KS提升4.85%,同时提高了对分布偏移的鲁棒性。这些结果表明MaskTab在工业应用中具有很高的实用价值。

🎯 应用场景

MaskTab在金融风控、医疗诊断、推荐系统等工业领域具有广泛的应用前景。它可以用于构建更准确、更鲁棒的表格数据分析模型,提升决策系统的性能和可靠性。通过知识蒸馏,可以将预训练模型迁移到资源受限的设备上,实现低延迟、高效率的推理。此外,MaskTab还可以用于数据增强、特征选择等任务,提升数据利用率。

📄 摘要(原文)

Tabular data forms the backbone of high-stakes decision systems in finance, healthcare, and beyond. Yet industrial tabular datasets are inherently difficult: high-dimensional, riddled with missing entries, and rarely labeled at scale. While foundation models have revolutionized vision and language, tabular learning still leans on handcrafted features and lacks a general self-supervised framework. We present MaskTab, a unified pre-training framework designed specifically for industrial-scale tabular data. MaskTab encodes missing values via dedicated learnable tokens, enabling the model to distinguish structural absence from random dropout. It jointly optimizes a hybrid supervised pre-training scheme--utilizing a twin-path architecture to reconcile masked reconstruction with task-specific supervision--and an MoE-augmented loss that adaptively routes features through specialized subnetworks. On industrial-scale benchmarks, it achieves +5.04% AUC and +8.28% KS over prior art under rigorous scaling. Moreover, its representations distill effectively into lightweight models, yielding +2.55% AUC and +4.85% KS under strict latency and interpretability constraints, while improving robustness to distribution shifts. Our work demonstrates that tabular data admits a foundation-model treatment--when its structural idiosyncrasies are respected.