TabCausal: Pretraining Across Causal Environments for Tabular Causal Discovery
作者: Zi-Rong Li, Si-Yang Liu, Tian-Zuo Wang, Han-Jia Ye
分类: cs.LG
发布日期: 2026-05-29
💡 一句话要点
TabCausal:通过跨因果环境预训练提升表格数据因果发现性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 因果发现 预训练 因果图 表格数据 干预数据
📋 核心要点
- 现有因果发现基础模型在泛化性和性能上存在瓶颈,尤其是在复杂或分布外场景下,难以超越传统方法。
- TabCausal通过在多样化的因果环境上进行预训练,并采用动态任务构建策略,提升模型对不同因果结构的适应性。
- 实验表明,TabCausal在合成和语义数据集上均表现出优异的因果结构恢复能力,尤其是在干预数据存在的情况下。
📝 摘要(中文)
因果发现旨在从观测和干预数据中恢复有向因果关系,为机制理解和可靠决策提供基础。因果发现基础模型(CDFMs)旨在通过单次前向传播将数据集直接映射到因果图,从而分摊这个问题,避免了每个数据集的测试、搜索或优化。然而,现有的CDFMs仍然有限,通常无法始终如一地匹配强大的经典方法,我们发现一个关键瓶颈是因果预训练任务的构建方式。基于此,我们提出了TabCausal,一个数据驱动的CDFMs,通过在不同的图先验、结构机制、噪声模型、维度、样本大小和干预方案上进行广泛的因果预训练。一种动态任务构建策略将这些因果环境组合成不同的发现任务,从而能够从观测和混合干预数据中进行更具迁移性的结构学习。在大型合成基准测试中,TabCausal实现了比各种因果发现基线更好的宏平均性能。为了进一步弥合抽象合成生成器和现实因果推理场景,我们引入了一个协议引导和LLM审计的语义因果环境基准,其中领域基础的SCMs生成可解释的观测和干预数据集,用于分布外分析。在合成和语义环境中,TabCausal都展示了强大的结构恢复能力,尤其是在干预证据下,突出了广泛的因果预训练是可迁移的摊销因果发现的关键要素。
🔬 方法详解
问题定义:现有因果发现基础模型(CDFMs)在面对不同分布的数据集时,泛化能力不足,难以达到甚至超越传统因果发现方法。主要痛点在于预训练任务的构建方式不够多样化,无法充分学习到各种因果结构的共性特征。
核心思路:TabCausal的核心思路是通过在大量且多样化的因果环境上进行预训练,使模型能够学习到更通用的因果结构表示。通过动态构建预训练任务,增加模型的 exposure,从而提升其泛化能力和鲁棒性。
技术框架:TabCausal的整体框架包括以下几个主要阶段:1) 因果环境生成:构建包含不同图先验、结构机制、噪声模型、维度、样本大小和干预方案的因果环境。2) 动态任务构建:将这些因果环境组合成不同的因果发现任务。3) 模型预训练:使用生成的任务对CDFMs进行预训练。4) 模型评估:在合成和语义数据集上评估模型的因果结构恢复能力。
关键创新:TabCausal的关键创新在于其数据驱动的预训练方式和动态任务构建策略。与以往方法不同,TabCausal不是针对特定数据集或场景进行优化,而是通过大规模的预训练学习通用的因果结构表示,从而提升模型的泛化能力。动态任务构建策略能够有效地利用多样化的因果环境,增加模型的 exposure,使其能够更好地适应不同的因果结构。
关键设计:TabCausal的关键设计包括:1) 多样化的因果环境:涵盖了各种图先验(例如,ER随机图、Scale-Free图)、结构机制(例如,线性、非线性)、噪声模型(例如,高斯噪声、非高斯噪声)、维度、样本大小和干预方案。2) 动态任务构建:根据不同的因果环境,随机生成不同的因果发现任务,例如,从观测数据中学习因果图、从混合干预数据中学习因果图。3) 损失函数:采用合适的损失函数来衡量预测的因果图与真实因果图之间的差异,例如,结构汉明距离(Structural Hamming Distance, SHD)。
🖼️ 关键图片
📊 实验亮点
TabCausal在大型合成基准测试中,宏平均性能优于多种因果发现基线方法。在语义因果环境基准测试中,TabCausal在干预证据下表现出强大的结构恢复能力,验证了其在分布外数据上的泛化能力。实验结果表明,广泛的因果预训练是提升因果发现模型性能的关键。
🎯 应用场景
TabCausal可应用于多个领域,如医疗健康、金融风控、智能制造等。通过学习数据中的因果关系,可以为决策提供更可靠的依据,例如,在医疗领域,可以用于发现疾病的致病因素,从而制定更有效的治疗方案;在金融领域,可以用于识别影响信用风险的关键因素,从而降低信贷损失。
📄 摘要(原文)
Causal discovery aims to recover directed causal relations from observational and interventional data, providing a basis for mechanistic understanding and reliable decision-making. Causal discovery foundation models (CDFMs) seek to amortize this problem by mapping a dataset directly to a causal graph in a single forward pass, avoiding per-dataset testing, search, or optimization. However, existing CDFMs remain limited, often failing to consistently match strong classical methods, and we find that a key bottleneck is how causal pretraining tasks are constructed. Based on this observation, we propose TabCausal, a data-driven CDFM trained with broad causal pretraining over diverse graph priors, structural mechanisms, noise models, dimensions, sample sizes, and intervention regimes. A dynamic task construction strategy composes these causal environments into varied discovery tasks, enabling more transferable structural learning from observational and mixed-interventional data. On large-scale synthetic benchmarks, TabCausal achieves better macro-averaged performance than a diverse set of causal discovery baselines. To further bridge abstract synthetic generators and realistic causal reasoning scenarios, we introduce a protocol-guided and LLM-audited semantic causal environment benchmark, where domain-grounded SCMs generate interpretable observational and interventional datasets for out-of-distribution analysis. Across both synthetic and semantic environments, TabCausal demonstrates robust structure recovery, especially under interventional evidence, highlighting broad causal pretraining as a key ingredient for transferable amortized causal discovery.