Basis Transformers for Multi-Task Tabular Regression
作者: Wei Min Loh, Jiaqi Shang, Pascal Poupart
分类: cs.LG
发布日期: 2025-06-07
💡 一句话要点
提出Basis Transformers,解决表格回归中的异构结构和缺失信息问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据 多任务学习 回归 Transformer 异构数据
📋 核心要点
- 表格数据包含噪声、缺失值和异构结构,现有方法难以有效处理这些复杂性。
- Basis Transformers通过尊重表格数据的固有不变性,如分层结构和数值表示,来解决上述问题。
- 实验表明,该模型在多任务表格回归中表现出色,参数量更少,且优于大型语言模型基线。
📝 摘要(中文)
处理表格数据极具挑战,因为其中包含部分信息、噪声和异构结构。现有技术通常难以同时处理表格数据的关键方面,例如文本信息、可变数量的列以及没有元数据(除了列名)的未见数据。我们提出了一种新颖的架构,即basis transformers,专门设计用于应对这些挑战,同时尊重表格数据中固有的不变性,包括分层结构和数值的表示。我们在多任务表格回归基准上评估了我们的设计,在OpenML-CTR23基准的34个任务中,中位数$R^2$得分提高了0.338,并且标准差最低。此外,我们的模型比性能最佳的基线少五倍的参数,并且超过了预训练的大型语言模型基线——即使是从随机权重初始化。
🔬 方法详解
问题定义:论文旨在解决表格数据回归任务中,现有方法难以有效处理异构结构、缺失信息和可变列数等问题。现有方法通常需要大量预处理或对特定类型的数据进行定制,泛化能力较弱,并且难以利用表格数据中固有的结构信息。
核心思路:论文的核心思路是设计一种能够自动学习表格数据内在结构和不变性的Transformer架构。通过引入“basis”的概念,模型能够将表格数据分解为一组基向量的线性组合,从而更好地捕捉数据中的潜在关系和层次结构。这种方法允许模型处理不同类型的列,并有效地利用数值和文本信息。
技术框架:Basis Transformers的整体架构包括以下几个主要模块:1) 输入嵌入层:将表格数据的每一列转换为向量表示,包括数值列和文本列。2) Basis学习层:学习一组基向量,用于表示表格数据中的潜在结构。3) Transformer层:利用Transformer架构对基向量的线性组合进行建模,捕捉列之间的依赖关系。4) 输出层:将Transformer的输出映射到回归目标。
关键创新:该论文最重要的技术创新点在于引入了“basis”的概念,并将其与Transformer架构相结合。这种方法能够自动学习表格数据的内在结构和不变性,从而更好地处理异构数据和缺失信息。与现有方法相比,Basis Transformers不需要大量预处理或对特定类型的数据进行定制,具有更强的泛化能力。
关键设计:在Basis学习层中,论文采用了一种自适应的基向量选择机制,根据数据的特点动态选择合适的基向量。在Transformer层中,论文使用了多头注意力机制,捕捉列之间的复杂依赖关系。损失函数采用均方误差(MSE),并加入正则化项,防止过拟合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Basis Transformers在OpenML-CTR23基准测试的34个任务中,中位数$R^2$得分提高了0.338,并且标准差最低。该模型仅使用最佳基线的五分之一参数,且性能优于预训练的大型语言模型,即使后者使用随机权重初始化。
🎯 应用场景
该研究成果可广泛应用于金融风控、医疗诊断、市场营销等领域,通过对表格数据的有效分析,提升预测精度和决策效率。例如,在金融领域,可以利用该模型预测贷款违约率;在医疗领域,可以辅助医生进行疾病诊断;在市场营销领域,可以预测用户购买行为。
📄 摘要(原文)
Dealing with tabular data is challenging due to partial information, noise, and heterogeneous structure. Existing techniques often struggle to simultaneously address key aspects of tabular data such as textual information, a variable number of columns, and unseen data without metadata besides column names. We propose a novel architecture, \textit{basis transformers}, specifically designed to tackle these challenges while respecting inherent invariances in tabular data, including hierarchical structure and the representation of numeric values. We evaluate our design on a multi-task tabular regression benchmark, achieving an improvement of 0.338 in the median $R^2$ score and the lowest standard deviation across 34 tasks from the OpenML-CTR23 benchmark. Furthermore, our model has five times fewer parameters than the best-performing baseline and surpasses pretrained large language model baselines -- even when initialized from randomized weights.