Resolving the bias-precision paradox with stochastic causal representation learning for personalized medicine

📄 arXiv: 2605.05706v1 📥 PDF

作者: Peisong Zhang, Manqiang Peng, Yuxuan Wu, Pawit Phadungsaksawasdi, Wesley Yeung, Ye Zhang, Trang Nguyen, Qiang Zhang, Nan Liu, Meng Wang, Kee Yuan Ngiam, Yih-Chung Tham, Ching-Yu Cheng, Tianfan Fu, Qingyu Chen, Rosemary Ke, Chang Li, Wenzhuo Yang, Zhenghao Lu, Chunyou Lai, Yu Zhang, Sheng Zhong, Hao Deng, Dianbo Liu

分类: cs.AI, q-bio.QM

发布日期: 2026-05-07


💡 一句话要点

提出基于随机因果表征学习的sMMD方法,解决个性化医疗中的偏差-精度悖论

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 因果表征学习 个性化医疗 反事实预测 分布偏移 可解释人工智能 重症监护 最大均值差异

📋 核心要点

  1. 现有因果推断方法在消除混杂偏差时,常因过度平滑导致临床关键异质性丢失,引发偏差-精度悖论。
  2. 提出sMMD随机对齐策略,通过子集级匹配替代全局对抗平衡,在保持因果平衡的同时保留临床特征。
  3. 在ICU大规模数据集上验证,该框架显著降低预测误差,并能有效辅助临床医生提升决策效率与准确性。

📝 摘要(中文)

从纵向观测数据中估计个体化治疗效果是数据驱动医疗的核心,但现有方法存在根本性局限:减少混杂偏差往往会抑制具有临床意义的异质性,从而降低患者特异性预测的准确性。本文将这种张力定义为因果表征学习中的“偏差-精度悖论”,并引入采样最大均值差异(sMMD),这是一种用子集级匹配替代全局对抗平衡的随机对齐策略。我们将该方法实例化为一个具有归因可解释性的反事实结果预测框架。在两个大规模ICU队列(n=27,783)的实验中,该框架在分布偏移下提高了准确性,误差降低高达11.5%,并显著提升了高风险任务的召回率。机制分析表明,sMMD能选择性地保留临床决定性变量。在人机协作评估中,该方法表现优于临床实习医生和大语言模型,使临床医生的决策准确率提高了14.7%并缩短了决策时间,为实时临床决策支持提供了可解释的解决方案。

🔬 方法详解

问题定义:论文旨在解决纵向观测数据中个体化治疗效果(ITE)估计的“偏差-精度悖论”。现有方法通常利用对抗训练或全局对齐来消除混杂偏差,但这往往会抹除患者间的细微异质性,导致模型在处理复杂临床数据时预测精度下降。

核心思路:核心思想是引入随机对齐策略。通过将全局分布对齐转化为局部子集匹配,模型能够在强制因果平衡的同时,避免对特征空间的过度平滑,从而保留对临床决策至关重要的异质性信息。

技术框架:框架由表征学习模块、sMMD对齐模块和反事实预测头组成。模型首先将纵向数据映射到低维隐空间,利用sMMD在采样后的子集上计算分布距离,并结合归因分析模块实现预测结果的可解释性。

关键创新:最重要的创新在于sMMD(Sampling-based Maximum Mean Discrepancy)。与传统的全局MMD或对抗平衡不同,sMMD通过随机采样机制在局部空间进行对齐,这种“局部对齐”策略有效缓解了偏差消除与信息保留之间的矛盾。

关键设计:技术细节包括基于核函数的分布距离度量,以及针对临床时间序列数据的归因正则化项。通过动态调整采样策略,模型能够自适应地平衡不同患者群体的分布差异,确保在分布偏移场景下的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在包含27,783名患者的两个大规模ICU队列实验中,该方法表现优异:预测误差降低达11.5%,在高风险任务中召回率显著提升。人机协作测试显示,该系统使临床医生的决策准确率提升14.7%,并有效缩短了决策时间,性能超越了临床实习生及主流大语言模型。

🎯 应用场景

该研究主要应用于重症监护(ICU)等高风险医疗场景,用于辅助医生进行个性化治疗方案的预测与评估。其高可解释性和对分布偏移的鲁棒性,使其在实时临床决策支持系统、药物疗效评估及精准医疗路径规划中具有广阔的落地前景。

📄 摘要(原文)

Estimating individualized treatment effects from longitudinal observational data is central to data-driven medicine, yet existing methods face a fundamental limitation: reducing confounding bias often suppresses clinically informative heterogeneity, degrading patient-specific predictions. Here, we identify this tension as a bias-precision paradox in causal representation learning and introduce sampling-based maximum mean discrepancy (sMMD), a stochastic alignment strategy that replaces global adversarial balancing with subset-level matching. We instantiate this approach in a framework for counterfactual outcome prediction with attribution-grounded interpretability. Across two large-scale ICU cohorts (n = 27,783), our framework improves accuracy under distribution shift, reducing error by up to 11.5% and substantially increasing recall in high-risk tasks. Mechanistic analyses show that sMMD selectively preserves clinically decisive variables. In human-AI evaluation, our method outperforms clinicians-in-training and large language models, and improves clinician accuracy by 14.7% while reducing decision time, enabling interpretable, real-time clinical decision support.