Causal Data Augmentation for Robust Fine-Tuning of Tabular Foundation Models
作者: Magnus Bühler, Lennart Purucker, Frank Hutter
分类: cs.LG
发布日期: 2026-01-07
备注: Accepted for oral presentation at the EurIPS 2025 Workshop on AI for Tabular Data (Copenhagen)
💡 一句话要点
CausalMixFT:利用因果数据增强提升表格型基础模型在低数据量下的微调鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据 数据增强 因果推理 小样本学习 基础模型 微调 结构因果模型
📋 核心要点
- 表格型基础模型在数据稀缺场景下微调面临挑战,验证集数据更少导致早停策略难以捕捉真实的泛化性能。
- CausalMixFT方法利用结构因果模型生成与真实数据结构一致的合成样本,增强训练数据的多样性,提升微调鲁棒性。
- 实验结果表明,CausalMixFT显著提升了模型性能,并缩小了验证集与测试集性能的差距,使早停策略更加可靠。
📝 摘要(中文)
本文提出CausalMixFT方法,旨在提升表格型基础模型(TFMs)在数据稀缺场景下微调的鲁棒性和下游任务性能。该方法通过在目标数据集上拟合结构因果模型(SCMs),生成结构一致的合成样本,从而增强有限的真实数据。这种方法利用因果信息指导数据增强,在保留特征依赖关系的同时,扩展了训练数据的多样性。在TabArena的33个分类数据集上进行了超过2300次微调实验,结果表明CausalMixFT方法始终如一地将中值归一化ROC-AUC从0.10(标准微调)提高到0.12,优于CTGAN(-0.01)、TabEBM(-0.04)和TableAugment(-0.09)等纯统计生成器。此外,它将中值验证-测试性能相关性差距从0.67缩小到0.30,从而能够实现更可靠的基于验证的早停,这是提高数据稀缺情况下微调稳定性的关键一步。这些结果表明,将因果结构纳入数据增强为在低数据量情况下微调表格型基础模型提供了一条有效且有原则的途径。
🔬 方法详解
问题定义:论文旨在解决表格型基础模型在数据量不足的情况下,微调效果不佳的问题。现有方法依赖于有限的真实数据,容易过拟合,且验证集上的早停策略无法准确评估模型的泛化能力,导致模型性能不稳定。
核心思路:论文的核心思路是利用结构因果模型(SCM)学习目标数据的因果结构,并基于此生成合成数据,从而扩充训练集,提高模型的泛化能力和鲁棒性。通过因果建模,可以保证生成的数据在结构上与真实数据保持一致,避免引入不相关的噪声。
技术框架:CausalMixFT方法主要包含以下几个步骤:1) 在目标数据集上学习结构因果模型(SCM)。2) 基于学习到的SCM,生成合成数据。3) 将合成数据与真实数据混合,用于微调表格型基础模型。4) 使用验证集进行早停,选择最佳模型。
关键创新:该方法最重要的创新点在于将因果推理引入到表格数据的增强中。与传统的统计数据增强方法相比,CausalMixFT能够更好地保留数据中的因果关系,从而生成更具信息量的合成数据,提升模型的泛化能力。
关键设计:论文的关键设计包括:1) 使用合适的SCM学习算法,例如PC算法或GES算法,从数据中推断因果结构。2) 设计合理的合成数据生成策略,例如基于SCM进行采样或干预。3) 确定合成数据与真实数据的混合比例,以平衡模型的偏差和方差。
📊 实验亮点
实验结果表明,CausalMixFT方法在33个分类数据集上显著优于其他数据增强方法,将中值归一化ROC-AUC从0.10(标准微调)提高到0.12,超越CTGAN、TabEBM和TableAugment等基线。更重要的是,CausalMixFT显著缩小了验证集与测试集性能的相关性差距,从0.67降至0.30,使得基于验证集的早停策略更加有效。
🎯 应用场景
CausalMixFT方法可应用于各种表格数据分析场景,尤其是在医疗、金融等数据隐私敏感或难以获取大量标注数据的领域。该方法能够提升模型在小样本条件下的性能,降低数据收集和标注成本,并提高模型的可靠性和泛化能力。未来可进一步探索与其他数据增强技术的结合,以及在更复杂的表格数据结构上的应用。
📄 摘要(原文)
Fine-tuning tabular foundation models (TFMs) under data scarcity is challenging, as early stopping on even scarcer validation data often fails to capture true generalization performance. We propose CausalMixFT, a method that enhances fine-tuning robustness and downstream performance by generating structurally consistent synthetic samples using Structural Causal Models (SCMs) fitted on the target dataset. This approach augments limited real data with causally informed synthetic examples, preserving feature dependencies while expanding training diversity. Evaluated across 33 classification datasets from TabArena and over 2300 fine-tuning runs, our CausalMixFT method consistently improves median normalized ROC-AUC from 0.10 (standard fine-tuning) to 0.12, outperforming purely statistical generators such as CTGAN (-0.01), TabEBM (-0.04), and TableAugment (-0.09). Moreover, it narrows the median validation-test performance correlation gap from 0.67 to 0.30, enabling more reliable validation-based early stopping, a key step toward improving fine-tuning stability under data scarcity. These results demonstrate that incorporating causal structure into data augmentation provides an effective and principled route to fine-tuning tabular foundation models in low-data regimes.