TabCF: Distributional Control Function Estimation with Tabular Foundation Models

📄 arXiv: 2605.05993v1 📥 PDF

作者: Geping Chen, Chunlin Li, Tianzhong Yang, Zhengyuan Zhu, Jing Zhou

分类: stat.ML, cs.LG, stat.ME, stat.OT

发布日期: 2026-05-07

🔗 代码/项目: GITHUB


💡 一句话要点

TabCF:利用表格型基础模型进行分布控制函数估计,实现高效因果推断

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 因果推断 控制函数 表格数据 基础模型 分布估计

📋 核心要点

  1. 现有工具变量和控制函数方法在因果效应估计中面临计算成本高、调参复杂等挑战,且大多关注均值效应。
  2. TabCF利用表格型基础模型进行控制函数回归,实现对分布量(如干预均值和分位数)的快速、准确估计。
  3. 实验表明,TabCF在各种中小规模数据集上优于现有方法,可作为未来研究的强大基线。

📝 摘要(中文)

本文提出了一种名为TabCF的简单方法,该方法利用表格型基础模型进行控制函数回归,从而在存在未测量混淆因素的情况下,实现对分布量(如干预均值和分位数)的准确、快速、透明且轻量级的因果估计。此外,本文还提出了一种基于Copula的多元结果近似方法。在各种中小规模的合成和真实数据场景中,TabCF的表现优于具有代表性的方法。本文的核心信息有两点:对于从业者来说,TabCF是分布因果推断的有效工具;对于研究人员来说,所提出的方法可以被认为是未来方法开发的强大基线。代码可在https://github.com/GepingChen/TabCF获取。

🔬 方法详解

问题定义:论文旨在解决存在未测量混淆因素时,对分布因果效应进行准确、高效估计的问题。现有方法通常计算成本高昂,需要大量调参,并且主要关注均值效应,难以捕捉更丰富的分布信息。

核心思路:论文的核心思路是利用表格型基础模型来构建控制函数,从而简化控制函数回归过程,并实现对干预均值、分位数等分布量的估计。通过预训练的表格型基础模型,可以快速适应新的数据集,减少了对特定数据集的过度拟合风险。

技术框架:TabCF方法主要包含以下步骤:1) 利用工具变量和内生变量,通过表格型基础模型估计控制函数;2) 使用估计的控制函数对内生变量进行调整,消除混淆偏差;3) 基于调整后的内生变量,估计干预下的分布量,如干预均值和分位数。对于多元结果,采用基于Copula的近似方法进行处理。

关键创新:TabCF的关键创新在于将表格型基础模型引入控制函数估计中,实现了以下优势:1) 提高了估计的准确性和效率;2) 降低了调参难度;3) 能够估计分布量,而不仅仅是均值效应。与传统方法相比,TabCF更加灵活和易于使用。

关键设计:TabCF的关键设计包括:1) 选择合适的表格型基础模型,如Transformer或MLP等;2) 设计合适的损失函数,用于训练控制函数;3) 对于多元结果,选择合适的Copula函数进行建模。具体的参数设置和网络结构需要根据具体的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TabCF在各种中小规模的合成和真实数据场景中,均优于具有代表性的方法。具体而言,TabCF在估计干预均值和分位数方面,具有更高的准确性和效率。此外,TabCF的调参难度较低,易于使用,可以作为未来因果推断方法开发的强大基线。

🎯 应用场景

TabCF可应用于医疗健康、金融风控、市场营销等领域,在这些领域中,存在大量未测量的混淆因素,需要进行准确的因果推断。例如,在医疗领域,可以利用TabCF评估药物对患者的影响,从而制定更有效的治疗方案。在金融领域,可以利用TabCF评估不同投资策略的风险和收益,从而做出更明智的投资决策。

📄 摘要(原文)

Instrumental variable (IV) and control function (CF) methods are powerful tools for causal effect estimation in the presence of unmeasured confounding, yet most existing approaches target only mean effects and/or demand substantial fitting and tuning effort. In this paper, we introduce a simple method, TabCF, for control function regression using tabular foundation models, which enables accurate, fast, identification-transparent, and tuning-light causal estimation of distributional quantities, such as interventional means and quantiles; we also propose a copula-based approximation for multivariate outcomes. TabCF performs favorably against representative methods across a broad range of small- to medium-sized synthetic and real data scenarios. The central message is two-fold: for practitioners, it highlights that TabCF is an effective tool for distributional causal inference; for researchers, it suggests that the proposed approach could be considered a strong baseline for future method development. Code is available at https://github.com/GepingChen/TabCF.