Joint Treatment Effect Estimation from Incomplete Healthcare Data: Temporal Causal Normalizing Flows with LLM-driven Evolutionary MNAR Imputation

📄 arXiv: 2605.05125v1 📥 PDF

作者: Olivia Jullian Parra, Sara Zoccheddu, David Catalan Cerezo, Tom Forzy, Franziska Ulrich, William Sutcliffe, Jakob Martin Burgstaller, Oliver Senn, Patrick Owen, Nicola Serra

分类: cs.LG, cs.AI

发布日期: 2026-05-06


💡 一句话要点

提出CausalFlow-T和LLM驱动的演化补全器,解决不完整医疗数据中的联合因果效应估计问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 因果推断 电子病历 缺失值处理 归一化流 大型语言模型

📋 核心要点

  1. 电子病历中存在严重的时间依赖性混淆和随机缺失(MNAR)的生物标志物,传统治疗效果方法难以同时处理因果估计、缺失值和时间结构。
  2. 论文提出CausalFlow-T,利用DAG约束的归一化流和LSTM编码,实现精确反事实推断,并结合LLM驱动的演化补全器处理缺失数据。
  3. 实验表明,该方法在合成和半合成数据集上优于现有方法,并在真实世界电子病历数据上获得了与随机对照试验一致的治疗效果估计。

📝 摘要(中文)

本研究提出了一种两阶段流程,用于从不完整的纵向电子病历(EHRs)中进行治疗效果估计。第一阶段,CausalFlow-T是一种有向无环图(DAG)约束的归一化流模型,利用长短期记忆网络(LSTM)编码患者历史,执行精确可逆的反事实推断,避免了变分推断的近似误差,并通过显式因果结构分离了混淆因素。消融实验表明,DAG约束和精确推断解决了不同的失效模式。第二阶段,由于CausalFlow-T需要完整的输入,我们引入了一种LLM驱动的演化补全器,该补全器提出可执行的补全操作符,而不是单个条目,并在三种大型语言模型(LLM)后端上对其进行评估。在30%--80%的MNAR缺失下,该补全器在生物标志物和因果指标上实现了最佳的综合排名,在逐点准确性和时间外推方面领先,同时保持了平均治疗效果(ATE)的恢复。在瑞士2型糖尿病成人患者的初级保健EHRs上,该流程估计GLP-1受体激动剂与SGLT-2抑制剂相比,方案内体重减轻差异为-0.98 kg [95% CI -1.01, -0.96],与随机证据一致。

🔬 方法详解

问题定义:论文旨在解决从不完整的纵向电子病历数据中进行准确的治疗效果估计的问题。现有方法通常将因果估计、缺失值处理和时间结构建模分开处理,无法有效应对电子病历中普遍存在的时间依赖性混淆和高达50%-80%的MNAR缺失数据,导致估计结果偏差较大。

核心思路:论文的核心思路是分两步走:首先,使用CausalFlow-T模型进行精确的反事实推断,以消除混淆因素的影响;然后,使用LLM驱动的演化补全器对缺失数据进行填补,为CausalFlow-T提供完整的输入。这种分步策略允许针对每个子问题使用最合适的工具,从而提高整体估计的准确性和鲁棒性。

技术框架:整个流程分为两个主要阶段:1) CausalFlow-T模型训练和反事实推断:该模型利用DAG约束的归一化流和LSTM编码器,对患者历史进行建模,并进行精确的反事实推断。2) LLM驱动的演化补全:该模块使用大型语言模型生成候选的补全操作符,并通过演化算法选择最优的补全策略。最终,将补全后的数据输入到CausalFlow-T模型中,得到治疗效果的估计。

关键创新:论文的关键创新在于:1) CausalFlow-T模型:结合了DAG约束和归一化流,实现了精确可逆的反事实推断,避免了变分推断的近似误差。2) LLM驱动的演化补全器:利用大型语言模型的知识和推理能力,生成更合理的补全策略,并使用演化算法进行优化,提高了补全的准确性和鲁棒性。

关键设计:CausalFlow-T模型使用LSTM对患者历史进行编码,并将编码后的信息作为归一化流的条件输入。DAG约束通过在训练过程中施加惩罚项来实现,鼓励模型学习符合因果结构的表示。LLM驱动的演化补全器使用提示工程来指导LLM生成候选的补全操作符,并使用基于生物标志物和因果指标的适应度函数来评估补全策略的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CausalFlow-T模型在合成和半合成数据集上优于现有的因果推断方法。LLM驱动的演化补全器在30%-80%的MNAR缺失情况下,实现了最佳的综合排名,并在逐点准确性和时间外推方面领先。在真实世界的电子病历数据上,该方法估计的治疗效果与随机对照试验的结果一致,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于医疗健康领域,帮助医生和研究人员利用真实世界的电子病历数据,更准确地评估不同治疗方案的效果。这有助于制定更个性化的治疗方案,提高患者的治疗效果,并为医疗政策的制定提供更可靠的依据。此外,该方法也可推广到其他具有时间序列和缺失数据的领域,如金融、环境科学等。

📄 摘要(原文)

Target trial emulation (TTE) enables causal questions to be studied with observational data when randomized controlled trials (RCTs) are infeasible. Yet treatment-effect methods often address causal estimation, missingness, and temporal structure separately, limiting their robustness in electronic health records (EHRs), where time-varying confounding and missing-not-at-random (MNAR) biomarkers can reach 50%--80%. We propose a two-stage pipeline for treatment effect estimation from incomplete longitudinal EHRs. First, CausalFlow-T, a directed acyclic graph (DAG)-constrained normalizing flow with long short-term memory (LSTM)-encoded patient history, performs exact invertible counterfactual inference, avoiding approximation errors from variational inference and separating confounding through explicit causal structure. Ablations on four synthetic and one semi-synthetic benchmark with known counterfactuals show that DAG constraints and exact inference address distinct failure modes: neither compensates for the other. Second, because CausalFlow-T requires completed inputs, we introduce an LLM-driven evolutionary imputer that proposes executable imputation operators rather than individual entries, and evaluate it with three large language model (LLM) backends, including two open-source models. Across 30%--80% MNAR missingness, this imputer achieves the best pooled rank over biomarker and causal metrics, leading in point-wise accuracy and temporal extrapolation while preserving average treatment effect (ATE) recovery as statistical baselines degrade. On Swiss primary-care EHRs from adults with type 2 diabetes initiating a GLP-1 receptor agonist or SGLT-2 inhibitor, the pipeline estimates a per-protocol weight-loss difference of -0.98 kg [95% CI -1.01, -0.96] favoring GLP-1 receptor agonists, consistent with randomized evidence and obtained from realistically incomplete real-world EHRs.