Is One Layer Enough? Understanding Inference Dynamics in Tabular Foundation Models
作者: Amir Rezaei Balef, Mykhailo Koshil, Katharina Eggensperger
分类: cs.LG, cs.AI
发布日期: 2026-05-07
备注: Accepted at the 43rd International Conference on Machine Learning (ICML 2026)
🔗 代码/项目: GITHUB
💡 一句话要点
揭示表格Transformer模型推理冗余,提出单层循环模型实现性能媲美。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据 Transformer模型 模型推理 深度冗余 单层循环 上下文学习 模型优化
📋 核心要点
- 现有表格Transformer模型推理机制是黑盒,缺乏对层间动态的理解,阻碍了模型优化。
- 通过大规模实验分析,发现模型存在深度冗余,推理过程可分解为不同阶段。
- 基于分析结果,设计单层循环模型,在参数量大幅减少的情况下保持性能。
📝 摘要(中文)
基于Transformer的表格基础模型(TFMs)在中小规模表格预测基准任务中表现出色,但其推理机制仍未得到充分探索。本文首次对6个最先进的表格上下文学习模型进行了大规模的层间动态机制研究。我们探索了预测如何在深度上涌现,识别了不同的推理阶段,并揭示了与语言模型不同的潜在空间动态。我们的研究结果表明,多个模型存在显著的深度冗余,表明在推理阶段存在具有重叠计算的迭代细化。在这些见解的指导下,我们设计了一个概念验证的循环单层模型,该模型仅使用原始模型20%的参数,同时实现了可比的性能。代码可在https://github.com/amirbalef/is_one_layer_enough 获取。
🔬 方法详解
问题定义:现有基于Transformer的表格基础模型(TFMs)在表格数据预测任务中表现优异,但其内部推理机制,特别是层与层之间的交互方式,仍然是一个黑盒。现有方法缺乏对模型深度方向上信息流动和计算冗余的理解,导致模型效率低下,难以优化和改进。
核心思路:本文的核心思路是通过大规模的实验分析,揭示TFMs在推理过程中层间动态的特性,特别是信息在不同层之间的传递和处理方式。通过分析不同层的激活、梯度等信息,识别出模型中存在的冗余计算,并以此为基础设计更高效的模型结构。
技术框架:本文的技术框架主要包括以下几个步骤:1) 选择6个state-of-the-art的表格上下文学习模型作为研究对象。2) 设计实验,收集模型在推理过程中每一层的激活、梯度等信息。3) 分析收集到的数据,识别模型中存在的冗余计算和不同推理阶段。4) 基于分析结果,设计一个单层循环模型,并通过实验验证其性能。
关键创新:本文最重要的技术创新点在于发现了表格Transformer模型中存在的深度冗余现象,并提出了利用单层循环结构来减少模型参数量,同时保持模型性能的方法。与传统的深度Transformer模型相比,该方法能够显著提高模型的效率,降低计算成本。
关键设计:单层循环模型的核心设计在于将原始多层Transformer模型中的多个层替换为一个单层结构,并通过循环迭代的方式模拟多层Transformer模型的推理过程。具体来说,该单层结构接收上一轮迭代的输出作为输入,经过计算后输出当前轮迭代的结果,并将该结果作为下一轮迭代的输入。通过调整循环迭代的次数,可以控制模型的计算量和性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的单层循环模型仅使用原始模型20%的参数,即可达到与原始模型相当的性能。在某些任务上,单层循环模型的性能甚至优于原始模型。这一结果验证了表格Transformer模型中存在深度冗余,以及利用单层循环结构来提高模型效率的可行性。
🎯 应用场景
该研究成果可应用于各种表格数据分析与预测任务,例如金融风控、医疗诊断、销售预测等。通过减少模型参数量和计算复杂度,可以降低部署成本,提高推理速度,使得表格Transformer模型能够更好地应用于资源受限的场景。此外,该研究也为设计更高效的表格数据处理模型提供了新的思路。
📄 摘要(原文)
Transformer-based tabular foundation models (TFMs) dominate small to medium tabular predictive benchmark tasks, yet their inference mechanisms remain largely unexplored. We present the first large-scale mechanistic study of layerwise dynamics in 6 state-of-the-art tabular in-context learning models. We explore how predictions emerge across depth, identify distinct stages of inference and reveal latent-space dynamics that differ from those of language models. Our findings indicate substantial depthwise redundancy across multiple models, suggesting iterative refinement with overlapping computations during inference stages. Guided by these insights, we design a proof-of-concept, looped single-layer model that uses only 20% of the original model's parameters while achieving comparable performance. The code is available at https://github.com/amirbalef/is_one_layer_enough.