When Tabular Foundation Models Transfer Across Modalities: A Systematic Evaluation Across 95 Datasets, 7 Modalities, and Two Regimes

📄 arXiv: 2606.02106v1 📥 PDF

作者: Julien Lafrance

分类: cs.LG, stat.ML

发布日期: 2026-06-01

备注: 24 pages, 5 figures. Code and data available at https://doi.org/10.5281/zenodo.19982636


💡 一句话要点

提出一种跨模态迁移的表格型基础模型,适用于多种信号分类任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨模态学习 表格型基础模型 上下文学习 等角紧框架 数据预处理 概率校准 迁移学习

📋 核心要点

  1. 现有方法在跨模态数据分类任务中,缺乏通用性和效率,需要针对特定模态进行专门设计和大量调优。
  2. 论文提出结合ETF预处理和表格型基础模型,构建统一的分类流程,实现跨多种模态数据的上下文推理。
  3. 实验表明,该流程在多种模态数据集上与强基线相比具有竞争力,且速度更快,为实际部署提供了指导。

📝 摘要(中文)

本文提出了一种单一的分类流程,该流程结合了等角紧框架(ETF)预处理阶段和表格型基础模型,用于上下文推理。该流程在数据映射到固定向量表示后,以相同的方式应用于各种模态。我们在涵盖视觉、音频、语音、文本、分子、时间序列和表格等七种信号模态的95个数据集上对其进行了评估。主要的方法论贡献在于确定了比较对象:在整篇论文中,性能是根据相同冻结特征上最强的轻量级调整基线来判断的,而oracle选择、部署选择和专门的微调则分别报告。该流程在相同冻结特征上与强大的轻量级调整基线具有广泛的竞争力。它虽然不能在每个任务上都与最好的专门模型或经过大量调整的流程相匹配,但它仍然很接近,并且运行速度快得多——通常比完整骨干微调快4到200倍,而且质量通常相当。我们描述了如何在实践中部署该流程:何时应用ETF预处理,如何在没有验证分割的情况下停止其训练,如何设置上下文分类器,以及如何校准结果概率。校准步骤并非表面功夫:TabICL通过构造产生良好校准的概率,ETF预处理最初会破坏该校准,而后验重新缩放会恢复它——从而产生每个预测的置信度信号,从业者可以使用该信号作为置信度门控部署的信任阈值。我们还报告了该流程不应期望提供帮助的地方,以及如何提前识别这些情况。

🔬 方法详解

问题定义:现有跨模态学习方法通常需要针对特定模态进行定制,缺乏通用性和效率。针对不同模态的数据,需要设计不同的网络结构和训练策略,并且需要大量的调参工作。这限制了模型在实际应用中的部署效率和泛化能力。

核心思路:论文的核心思路是利用表格型基础模型强大的上下文学习能力,结合ETF预处理将不同模态的数据映射到统一的向量空间,从而实现跨模态的知识迁移。通过固定特征提取器,避免了针对不同模态进行模型微调的需求,提高了效率。

技术框架:整体流程包括以下几个主要阶段:1) 数据预处理:使用ETF将不同模态的数据映射到固定维度的向量表示。2) 上下文学习:利用表格型基础模型进行上下文学习,根据给定的上下文样本进行分类预测。3) 概率校准:对模型输出的概率进行校准,提高预测结果的可靠性。

关键创新:该方法最重要的创新点在于将表格型基础模型应用于跨模态学习,并结合ETF预处理实现数据表示的统一。这使得模型能够利用表格数据上的先验知识,快速适应新的模态数据,而无需进行大量的微调。

关键设计:ETF预处理的关键在于选择合适的变换矩阵,以保证数据在向量空间中的分布具有良好的性质。论文中讨论了如何停止ETF的训练,以及如何设置上下文分类器。此外,概率校准步骤对于提高模型预测的可靠性至关重要,论文中提出了一种后验重新缩放的方法来实现概率校准。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该流程在95个数据集上与强大的轻量级调整基线相比具有竞争力,并且运行速度快得多——通常比完整骨干微调快4到200倍,而且质量通常相当。概率校准步骤显著提高了预测结果的可靠性,为实际应用提供了置信度评估。

🎯 应用场景

该研究成果可应用于多种跨模态数据分析场景,例如:医疗诊断(结合影像、基因数据)、金融风控(结合文本、交易数据)、智能制造(结合图像、传感器数据)等。该方法能够降低模型部署成本,提高分析效率,为实际应用提供更可靠的决策支持。

📄 摘要(原文)

We present a single classification pipeline that combines an Equiangular Tight Frame (ETF) preprocessing stage with a tabular foundation model for in-context inference, applied identically across modalities once data is mapped to fixed vector representations. We evaluate it on 95 datasets spanning seven signal modalities -- vision, audio, speech, text, molecular, time-series, and tabular. The main methodological contribution is to fix the comparison object: throughout the paper, performance is judged against the strongest lightweight tuned baseline on the same frozen features, while oracle selection, deployed selection, and specialized fine-tuning are reported separately. The pipeline is broadly competitive with strong lightweight tuned baselines on the same frozen features. It does not match the very best specialized models or heavily tuned pipelines on every task, but it stays close, and it runs much faster -- typically 4 to 200 times faster than full backbone fine-tuning, often at comparable quality. We describe how to deploy the pipeline in practice: when to apply ETF preprocessing, how to stop its training without a validation split, how to set up the in-context classifier, and how to calibrate the resulting probabilities. The calibration step is non-cosmetic: TabICL produces well-calibrated probabilities by construction, ETF preprocessing initially disrupts that calibration, and the post-hoc rescaling restores it -- yielding a per-prediction confidence signal that practitioners can use as a trust threshold for confidence-gated deployment. We also report where the pipeline should not be expected to help, and how to identify those cases in advance.