Frequentist Consistency of Prior-Data Fitted Networks for Causal Inference
作者: Valentyn Melnychuk, Vahid Balazadeh, Stefan Feuerriegel, Rahul G. Krishnan
分类: cs.LG
发布日期: 2026-03-12
💡 一句话要点
提出基于PFN的因果推断ATE估计校准方法,解决先验诱导的混淆偏差问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 因果推断 先验数据拟合网络 平均处理效应 频率主义一致性 单步后验校正 鞅后验 不确定性量化
📋 核心要点
- 现有基于PFN的因果推断方法缺乏与频率主义估计器一致的不确定性量化,可能导致先验诱导的混淆偏差。
- 提出基于单步后验校正(OSPC)的校准程序,通过鞅后验定制来恢复PFN的功能性干扰后验,从而校准PFN。
- 实验表明,使用鞅后验OSPC校准的PFN,其ATE不确定性与频率主义不确定性渐近匹配,并在有限样本中表现良好。
📝 摘要(中文)
基于先验数据拟合网络(PFN)的基础模型在因果推断中表现出强大的经验性能,它将任务构建为上下文学习问题。然而,尚不清楚基于PFN的因果估计器提供的置信度量化是否与经典的频率主义估计器一致。本文分析了基于PFN的平均处理效应(ATE)估计器的频率主义一致性,以填补这一空白。(1)我们表明,现有的PFN,当被解释为贝叶斯ATE估计器时,会表现出先验诱导的混淆偏差:先验不会被数据渐近覆盖,这反过来又阻止了频率主义一致性。(2)作为补救措施,我们建议采用基于单步后验校正(OSPC)的校准程序。我们证明了OSPC有助于恢复频率主义一致性,并且可以为校准后的PFN产生半参数Bernstein-von Mises定理(即,随着数据量的增长,校准后的基于PFN的估计器和经典的半参数有效估计器都在分布上收敛)。(3)最后,我们通过在PFN之上定制鞅后验来实现OSPC。通过这种方式,我们能够从PFN中恢复OSPC所需的功能性干扰后验。在多个(半)合成实验中,使用我们的鞅后验OSPC校准的PFN产生的ATE不确定性(i)渐近匹配频率主义不确定性,并且(ii)与其他贝叶斯ATE估计器相比,在有限样本中得到很好的校准。
🔬 方法详解
问题定义:论文旨在解决基于先验数据拟合网络(PFN)的因果推断方法中,由于先验信息的影响,导致估计结果与频率主义估计不一致的问题。现有方法的痛点在于,PFN作为贝叶斯估计器时,其先验信息可能不会随着数据量的增加而被完全覆盖,从而引入混淆偏差,影响估计的准确性和可靠性。
核心思路:论文的核心思路是通过校准PFN的后验分布,使其与频率主义估计器保持一致。具体而言,采用单步后验校正(OSPC)方法,利用数据对PFN的后验分布进行修正,从而消除或减少先验信息带来的偏差。这种方法旨在恢复频率主义一致性,并为校准后的PFN建立半参数Bernstein-von Mises定理。
技术框架:整体框架包括以下几个主要步骤:1) 使用PFN进行初步的因果效应估计;2) 构建鞅后验,用于描述PFN输出的不确定性;3) 利用单步后验校正(OSPC)方法,基于鞅后验对PFN的后验分布进行校准;4) 使用校准后的PFN进行最终的因果效应估计和不确定性量化。该框架的关键在于OSPC步骤,它利用数据信息来修正PFN的先验偏差。
关键创新:论文的关键创新在于将单步后验校正(OSPC)方法应用于基于PFN的因果推断,并证明了该方法可以恢复频率主义一致性。此外,通过定制鞅后验,能够从PFN中恢复OSPC所需的功能性干扰后验,从而使得OSPC方法能够有效地应用于PFN。这种方法为PFN在因果推断中的应用提供了理论保障,并提高了估计的准确性和可靠性。
关键设计:论文的关键设计包括:1) 鞅后验的构建方式,需要能够准确描述PFN输出的不确定性;2) 单步后验校正(OSPC)的具体实现,需要选择合适的校正函数,以有效地消除先验偏差;3) 实验中使用的PFN结构和训练方法,需要保证PFN能够有效地学习到因果关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用鞅后验OSPC校准的PFN,其ATE不确定性能够渐近匹配频率主义不确定性,并且在有限样本中表现出良好的校准性能。与其他贝叶斯ATE估计器相比,该方法能够更准确地估计因果效应,并提供更可靠的不确定性量化。
🎯 应用场景
该研究成果可应用于医疗健康、经济学、社会科学等领域,用于更准确地估计干预措施的效果,并提供可靠的不确定性量化。例如,在医疗领域,可以用于评估新药或治疗方案的疗效,为临床决策提供依据。在经济学领域,可以用于评估政策干预对经济指标的影响,为政策制定提供参考。
📄 摘要(原文)
Foundation models based on prior-data fitted networks (PFNs) have shown strong empirical performance in causal inference by framing the task as an in-context learning problem.However, it is unclear whether PFN-based causal estimators provide uncertainty quantification that is consistent with classical frequentist estimators. In this work, we address this gap by analyzing the frequentist consistency of PFN-based estimators for the average treatment effect (ATE). (1) We show that existing PFNs, when interpreted as Bayesian ATE estimators, can exhibit prior-induced confounding bias: the prior is not asymptotically overwritten by data, which, in turn, prevents frequentist consistency. (2) As a remedy, we suggest employing a calibration procedure based on a one-step posterior correction (OSPC). We show that the OSPC helps to restore frequentist consistency and can yield a semi-parametric Bernstein-von Mises theorem for calibrated PFNs (i.e., both the calibrated PFN-based estimators and the classical semi-parametric efficient estimators converge in distribution with growing data size). (3) Finally, we implement OSPC through tailoring martingale posteriors on top of the PFNs. In this way, we are able to recover functional nuisance posteriors from PFNs, required by the OSPC. In multiple (semi-)synthetic experiments, PFNs calibrated with our martingale posterior OSPC produce ATE uncertainty that (i) asymptotically matches frequentist uncertainty and (ii) is well calibrated in finite samples in comparison to other Bayesian ATE estimators.