TabCausal: Pretraining Across Causal Environments for Tabular Causal Discovery

作者: Zi-Rong Li, Si-Yang Liu, Tian-Zuo Wang, Han-Jia Ye

分类: cs.LG

发布日期: 2026-05-29

💡 一句话要点

TabCausal：通过跨因果环境预训练提升表格数据因果发现性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 因果发现 预训练 因果图 表格数据 干预数据

📋 核心要点

现有因果发现基础模型在泛化性和性能上存在瓶颈，尤其是在复杂或分布外场景下，难以超越传统方法。
TabCausal通过在多样化的因果环境上进行预训练，并采用动态任务构建策略，提升模型对不同因果结构的适应性。
实验表明，TabCausal在合成和语义数据集上均表现出优异的因果结构恢复能力，尤其是在干预数据存在的情况下。

📝 摘要（中文）

因果发现旨在从观测和干预数据中恢复有向因果关系，为机制理解和可靠决策提供基础。因果发现基础模型（CDFMs）旨在通过单次前向传播将数据集直接映射到因果图，从而分摊这个问题，避免了每个数据集的测试、搜索或优化。然而，现有的CDFMs仍然有限，通常无法始终如一地匹配强大的经典方法，我们发现一个关键瓶颈是因果预训练任务的构建方式。基于此，我们提出了TabCausal，一个数据驱动的CDFMs，通过在不同的图先验、结构机制、噪声模型、维度、样本大小和干预方案上进行广泛的因果预训练。一种动态任务构建策略将这些因果环境组合成不同的发现任务，从而能够从观测和混合干预数据中进行更具迁移性的结构学习。在大型合成基准测试中，TabCausal实现了比各种因果发现基线更好的宏平均性能。为了进一步弥合抽象合成生成器和现实因果推理场景，我们引入了一个协议引导和LLM审计的语义因果环境基准，其中领域基础的SCMs生成可解释的观测和干预数据集，用于分布外分析。在合成和语义环境中，TabCausal都展示了强大的结构恢复能力，尤其是在干预证据下，突出了广泛的因果预训练是可迁移的摊销因果发现的关键要素。

🔬 方法详解

问题定义：现有因果发现基础模型（CDFMs）在面对不同分布的数据集时，泛化能力不足，难以达到甚至超越传统因果发现方法。主要痛点在于预训练任务的构建方式不够多样化，无法充分学习到各种因果结构的共性特征。

核心思路：TabCausal的核心思路是通过在大量且多样化的因果环境上进行预训练，使模型能够学习到更通用的因果结构表示。通过动态构建预训练任务，增加模型的 exposure，从而提升其泛化能力和鲁棒性。

技术框架：TabCausal的整体框架包括以下几个主要阶段：1) 因果环境生成：构建包含不同图先验、结构机制、噪声模型、维度、样本大小和干预方案的因果环境。2) 动态任务构建：将这些因果环境组合成不同的因果发现任务。3) 模型预训练：使用生成的任务对CDFMs进行预训练。4) 模型评估：在合成和语义数据集上评估模型的因果结构恢复能力。

关键创新：TabCausal的关键创新在于其数据驱动的预训练方式和动态任务构建策略。与以往方法不同，TabCausal不是针对特定数据集或场景进行优化，而是通过大规模的预训练学习通用的因果结构表示，从而提升模型的泛化能力。动态任务构建策略能够有效地利用多样化的因果环境，增加模型的 exposure，使其能够更好地适应不同的因果结构。

关键设计：TabCausal的关键设计包括：1) 多样化的因果环境：涵盖了各种图先验（例如，ER随机图、Scale-Free图）、结构机制（例如，线性、非线性）、噪声模型（例如，高斯噪声、非高斯噪声）、维度、样本大小和干预方案。2) 动态任务构建：根据不同的因果环境，随机生成不同的因果发现任务，例如，从观测数据中学习因果图、从混合干预数据中学习因果图。3) 损失函数：采用合适的损失函数来衡量预测的因果图与真实因果图之间的差异，例如，结构汉明距离（Structural Hamming Distance, SHD）。

🖼️ 关键图片

📊 实验亮点

TabCausal在大型合成基准测试中，宏平均性能优于多种因果发现基线方法。在语义因果环境基准测试中，TabCausal在干预证据下表现出强大的结构恢复能力，验证了其在分布外数据上的泛化能力。实验结果表明，广泛的因果预训练是提升因果发现模型性能的关键。

🎯 应用场景

TabCausal可应用于多个领域，如医疗健康、金融风控、智能制造等。通过学习数据中的因果关系，可以为决策提供更可靠的依据，例如，在医疗领域，可以用于发现疾病的致病因素，从而制定更有效的治疗方案；在金融领域，可以用于识别影响信用风险的关键因素，从而降低信贷损失。

📄 摘要（原文）

Causal discovery aims to recover directed causal relations from observational and interventional data, providing a basis for mechanistic understanding and reliable decision-making. Causal discovery foundation models (CDFMs) seek to amortize this problem by mapping a dataset directly to a causal graph in a single forward pass, avoiding per-dataset testing, search, or optimization. However, existing CDFMs remain limited, often failing to consistently match strong classical methods, and we find that a key bottleneck is how causal pretraining tasks are constructed. Based on this observation, we propose TabCausal, a data-driven CDFM trained with broad causal pretraining over diverse graph priors, structural mechanisms, noise models, dimensions, sample sizes, and intervention regimes. A dynamic task construction strategy composes these causal environments into varied discovery tasks, enabling more transferable structural learning from observational and mixed-interventional data. On large-scale synthetic benchmarks, TabCausal achieves better macro-averaged performance than a diverse set of causal discovery baselines. To further bridge abstract synthetic generators and realistic causal reasoning scenarios, we introduce a protocol-guided and LLM-audited semantic causal environment benchmark, where domain-grounded SCMs generate interpretable observational and interventional datasets for out-of-distribution analysis. Across both synthetic and semantic environments, TabCausal demonstrates robust structure recovery, especially under interventional evidence, highlighting broad causal pretraining as a key ingredient for transferable amortized causal discovery.

TabCausal: Pretraining Across Causal Environments for Tabular Causal Discovery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理