A Mechanistic Study of Tabular Foundation Models

📄 arXiv: 2605.21288v1 📥 PDF

作者: Marin Biloš, James T. Wilson, Anderson Schneider, Yuriy Nevmyvaka

分类: cs.LG

发布日期: 2026-05-20


💡 一句话要点

研究表格数据预训练模型,揭示其内在机制与鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格数据 预训练模型 机制性研究 因果干预 对抗攻击

📋 核心要点

  1. 现有表格数据预训练模型在准确率上趋同,但缺乏对其内在机制的深入理解,例如算法一致性、置换不变性来源和鲁棒性。
  2. 论文通过因果干预揭示了不同模型采用不同的相似性读取方式,并分析了置换不变性的来源,以及针对特定读取方式的对抗攻击。
  3. 实验表明,不同模型具有不同的失效模式,并且可以通过特定的攻击手段将其与重新拟合的基线模型区分开来,验证了机制性理解的有效性。

📝 摘要(中文)

本文研究了不同架构的表格数据预训练模型在分类和回归任务中的准确率收敛现象。提出了三个关键问题:(i) 模型是否执行相同的上下文学习算法?(ii) 行、列和类别置换不变性从何而来?(iii) 模型在对抗样本攻击下的鲁棒性如何?研究表明,不同模型家族实现了不同的基于相似性的读取方式,包括注意力加权投票和类别条件均值读取,并通过因果干预验证。先前研究强调的表征坍塌并非实际问题。每个模型的置换不变性源于特定的位置参数,移除这些参数可以保持准确率并使近似不变性变为精确不变性。针对每种读取方式设计的对抗样本重现了预测的失效模式;hub攻击和rank攻击将它们与重新拟合的基线隔离开来。这些结果对当代表格数据预训练模型进行了机制性解释,并确定了影响其准确性和典型失效的归纳偏置。

🔬 方法详解

问题定义:现有表格数据预训练模型在各种任务上表现出相似的性能,但我们对其内部工作机制知之甚少。例如,不同的模型是否学习到了相同的算法?它们的置换不变性是如何实现的?以及它们在面对对抗性攻击时有多鲁棒?这些问题无法通过简单的排行榜比较来回答。

核心思路:本文的核心思路是通过机制性研究,深入理解表格数据预训练模型的内部工作原理。具体来说,通过因果干预来确定模型使用的相似性读取方式,分析置换不变性的来源,并设计对抗性攻击来验证对模型失效模式的理解。

技术框架:本文的研究框架主要包括以下几个步骤:1) 确定不同模型的相似性读取方式,例如注意力加权投票和类别条件均值读取;2) 分析置换不变性的来源,找到对应的位置参数;3) 设计针对特定读取方式的对抗性攻击,例如hub攻击和rank攻击;4) 将对抗攻击后的模型与重新拟合的基线模型进行比较,验证机制性理解的有效性。

关键创新:本文最重要的技术创新在于对表格数据预训练模型进行了机制性研究,揭示了其内部工作原理。具体来说,通过因果干预确定了模型使用的相似性读取方式,分析了置换不变性的来源,并设计了对抗性攻击来验证对模型失效模式的理解。这与以往主要关注模型性能的经验性研究不同,为理解和改进表格数据预训练模型提供了新的视角。

关键设计:本文的关键设计包括:1) 使用因果干预来确定模型使用的相似性读取方式;2) 通过移除特定的位置参数来验证置换不变性的来源;3) 设计针对特定读取方式的对抗性攻击,例如hub攻击和rank攻击。这些设计使得研究能够深入理解模型的内部工作原理,并验证对模型失效模式的理解。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,不同模型家族实现了不同的相似性读取方式,例如注意力加权投票和类别条件均值读取。通过移除特定的位置参数,可以使模型的近似置换不变性变为精确不变性。针对特定读取方式设计的对抗样本重现了预测的失效模式,hub攻击和rank攻击能够将这些模型与重新拟合的基线隔离开来。

🎯 应用场景

该研究成果可应用于提升表格数据预训练模型的鲁棒性和可解释性,例如在金融风控、医疗诊断等领域,可以帮助我们更好地理解模型的决策过程,并提高模型在对抗性环境下的可靠性。此外,该研究也为设计更高效、更鲁棒的表格数据预训练模型提供了新的思路。

📄 摘要(原文)

Tabular foundation models with different architectures converge in accuracy across a range of classification and regression tasks. This raises questions a leaderboard cannot answer: (i) whether the models execute the same in-context algorithm, (ii) where row, column, and class-permutation invariances originate, and (iii) how robust they are under perturbations engineered against the inferred mechanism. We characterize all three. The model families realize qualitatively distinct similarity-based readouts: from an attention-weighted vote over context labels to a class-conditional mean readout, each confirmed by causal intervention. We find that the representation collapse highlighted in prior work is not a practical concern for them. Each model's permutation invariances trace to specific positional parameters whose removal preserves accuracy and makes approximate invariance exact. Perturbations engineered against each readout reproduce predicted failure modes; hub and rank attacks isolate them from refit baselines. Together these results give a mechanistic account of contemporary tabular foundation models and identify which inductive biases govern both their accuracy and characteristic failures.