MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification

作者: Bo Zheng, Yudong Chen, Zihua Xiong, Shuai Fang, Peidong He, Yang Yang, Sheng Guo

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-12

💡 一句话要点

MaskTab：面向工业分类的可扩展掩码表格预训练，结合缩放法则与知识蒸馏

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 表格数据 预训练 掩码学习 缺失值处理 知识蒸馏

📋 核心要点

工业表格数据面临高维、缺失值多、标注数据稀缺等挑战，传统方法依赖手工特征工程，缺乏通用的自监督学习框架。
MaskTab通过可学习token编码缺失值，区分结构性缺失和随机dropout，并采用双路径架构协调掩码重建和任务监督。
MaskTab在工业规模数据集上取得了显著的性能提升，AUC提升5.04%，KS提升8.28%，并且蒸馏后的轻量级模型依然表现出色。

📝 摘要（中文）

表格数据是金融、医疗等高风险决策系统的基础。然而，工业表格数据集本质上是困难的：高维、充满缺失值，且很少有大规模标注。虽然基础模型已经彻底改变了视觉和语言领域，但表格学习仍然依赖于手工特征，并且缺乏通用的自监督框架。我们提出了MaskTab，一个专为工业规模表格数据设计的统一预训练框架。MaskTab通过专用的可学习token编码缺失值，使模型能够区分结构性缺失和随机dropout。它联合优化混合监督预训练方案——利用双路径架构来协调掩码重建与特定任务监督——以及MoE增强损失，该损失自适应地通过专门的子网络路由特征。在工业规模的基准测试中，在严格的缩放下，它比现有技术实现了+5.04%的AUC和+8.28%的KS。此外，其表示有效地提炼成轻量级模型，在严格的延迟和可解释性约束下，产生+2.55%的AUC和+4.85%的KS，同时提高了对分布偏移的鲁棒性。我们的工作表明，当尊重表格数据的结构特性时，表格数据可以进行基础模型处理。

🔬 方法详解

问题定义：工业界表格数据普遍存在高维、缺失值多、标注数据稀缺等问题，传统表格数据处理方法依赖于手工特征工程，泛化能力差，且缺乏类似图像和文本领域的通用预训练模型。现有方法难以有效处理缺失值，并且缺乏有效的自监督学习策略，导致模型性能受限。

核心思路：MaskTab的核心思路是设计一个专门针对表格数据的预训练框架，通过掩码（Mask）部分特征，并利用模型重建这些被掩码的特征，从而学习到表格数据的内在结构和表示。同时，利用辅助任务进行监督学习，提升模型的泛化能力和特定任务的性能。通过可学习的token来区分不同类型的缺失值，从而更好地利用缺失值信息。

技术框架：MaskTab采用双路径架构，一条路径用于掩码特征重建，另一条路径用于特定任务的监督学习。模型首先通过嵌入层将表格数据转换为向量表示，然后通过Transformer编码器进行特征提取。对于缺失值，使用专门的可学习token进行编码。在预训练阶段，模型同时优化掩码重建损失和监督学习损失。为了提升模型的容量和表达能力，采用了MoE（Mixture of Experts）结构，允许模型根据输入特征自适应地选择不同的子网络进行处理。

关键创新：MaskTab的关键创新在于：1) 提出了针对表格数据的掩码预训练方法，能够有效学习表格数据的内在结构；2) 使用可学习token编码缺失值，区分结构性缺失和随机dropout；3) 采用双路径架构，联合优化掩码重建和监督学习；4) 利用MoE结构提升模型容量和表达能力。

关键设计：MaskTab的关键设计包括：1) 掩码策略：随机掩码部分特征，并利用模型重建这些被掩码的特征；2) 缺失值编码：使用专门的可学习token编码缺失值，区分结构性缺失和随机dropout；3) 损失函数：联合优化掩码重建损失和监督学习损失，其中掩码重建损失采用均方误差或交叉熵损失，监督学习损失根据具体任务选择；4) MoE结构：采用稀疏门控机制，允许模型根据输入特征自适应地选择不同的子网络进行处理。

🖼️ 关键图片

📊 实验亮点

MaskTab在工业规模的基准测试中取得了显著的性能提升，AUC提升5.04%，KS提升8.28%，超过了现有的表格数据处理方法。通过知识蒸馏，可以将预训练模型迁移到轻量级模型，在严格的延迟和可解释性约束下，AUC提升2.55%，KS提升4.85%，同时提高了对分布偏移的鲁棒性。这些结果表明MaskTab在工业应用中具有很高的实用价值。

🎯 应用场景

MaskTab在金融风控、医疗诊断、推荐系统等工业领域具有广泛的应用前景。它可以用于构建更准确、更鲁棒的表格数据分析模型，提升决策系统的性能和可靠性。通过知识蒸馏，可以将预训练模型迁移到资源受限的设备上，实现低延迟、高效率的推理。此外，MaskTab还可以用于数据增强、特征选择等任务，提升数据利用率。

📄 摘要（原文）

Tabular data forms the backbone of high-stakes decision systems in finance, healthcare, and beyond. Yet industrial tabular datasets are inherently difficult: high-dimensional, riddled with missing entries, and rarely labeled at scale. While foundation models have revolutionized vision and language, tabular learning still leans on handcrafted features and lacks a general self-supervised framework. We present MaskTab, a unified pre-training framework designed specifically for industrial-scale tabular data. MaskTab encodes missing values via dedicated learnable tokens, enabling the model to distinguish structural absence from random dropout. It jointly optimizes a hybrid supervised pre-training scheme--utilizing a twin-path architecture to reconcile masked reconstruction with task-specific supervision--and an MoE-augmented loss that adaptively routes features through specialized subnetworks. On industrial-scale benchmarks, it achieves +5.04% AUC and +8.28% KS over prior art under rigorous scaling. Moreover, its representations distill effectively into lightweight models, yielding +2.55% AUC and +4.85% KS under strict latency and interpretability constraints, while improving robustness to distribution shifts. Our work demonstrates that tabular data admits a foundation-model treatment--when its structural idiosyncrasies are respected.

MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理