Learning Dynamic Representations and Policies from Multimodal Clinical Time-Series with Informative Missingness

📄 arXiv: 2604.21235v1 📥 PDF

作者: Zihan Liang, Ziwen Pan, Ruoxuan Xiong

分类: cs.LG, cs.CL, stat.ME

发布日期: 2026-04-23

备注: Findings of ACL 2026 (30 pages)


💡 一句话要点

提出利用信息缺失性的多模态临床时间序列动态表征学习框架,提升治疗策略学习和预后预测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 临床时间序列 信息缺失性 表征学习 贝叶斯滤波

📋 核心要点

  1. 现有方法在处理临床时间序列缺失值时,未能充分利用观察过程本身携带的信息,忽略了缺失模式中蕴含的患者状态信息。
  2. 该论文提出一种患者表征学习框架,显式地利用多模态临床时间序列中的信息缺失性,从而更准确地捕捉患者的动态健康状态。
  3. 在MIMIC-III、MIMIC-IV和eICU数据集上的实验表明,该框架在离线治疗策略学习和不良结果预测方面均有显著提升。

📝 摘要(中文)

多模态临床记录包含随时间记录的结构化测量和临床笔记,提供了关于患者健康演变的丰富时间信息。然而,这些观察是稀疏的,并且是否记录取决于患者的潜在状况。结构化测量和临床笔记的记录过程不同,因此不同模态的观察模式也不同。虽然先前的工作已经开发了适应临床时间序列中缺失值的方法,但如何提取和利用观察过程本身携带的信息仍未得到充分探索。因此,我们提出了一种用于多模态临床时间序列的患者表征学习框架,该框架显式地利用了信息缺失性。该框架结合了(1)一个多模态编码器,它捕获来自结构化和文本数据的信号以及它们的观察模式,(2)一个贝叶斯滤波模块,它根据观察到的多模态信号随时间更新潜在的患者状态,以及(3)下游模块,用于基于学习到的患者状态进行离线治疗策略学习和患者结果预测。我们在来自MIMIC-III、MIMIC-IV和eICU的ICU脓毒症队列上评估了该框架。它改进了离线治疗策略学习和不良结果预测,在MIMIC-III上,临床医生行为的FQE为0.679,而基线为0.528,72小时后死亡率预测的AUROC为0.886。

🔬 方法详解

问题定义:论文旨在解决多模态临床时间序列数据中,由于数据缺失带来的患者状态表征不准确问题。现有方法通常忽略数据缺失模式中蕴含的信息,或者简单地对缺失值进行填充,无法有效利用这些信息来提升下游任务的性能。

核心思路:论文的核心思路是显式地建模数据缺失过程,将缺失模式作为一种信息来源,与观测到的临床数据(结构化测量和临床笔记)相结合,共同用于学习患者的动态表征。通过这种方式,模型可以更好地理解患者的潜在健康状态,并提升下游任务的性能。

技术框架:该框架包含三个主要模块:(1)多模态编码器:用于捕获结构化数据和文本数据的信号及其观察模式。(2)贝叶斯滤波模块:用于根据观察到的多模态信号随时间更新潜在的患者状态。(3)下游模块:用于基于学习到的患者状态进行离线治疗策略学习和患者结果预测。整体流程是,首先使用多模态编码器提取特征,然后使用贝叶斯滤波模块进行状态更新,最后使用下游模块进行任务预测。

关键创新:该论文最重要的技术创新点在于显式地利用了信息缺失性。与现有方法不同,该方法将数据缺失模式视为一种重要的信息来源,并将其纳入到患者状态表征学习过程中。这种方法可以更准确地捕捉患者的动态健康状态,并提升下游任务的性能。

关键设计:多模态编码器可能采用Transformer或RNN等结构,用于处理结构化数据和文本数据。贝叶斯滤波模块可能采用卡尔曼滤波或粒子滤波等方法,用于更新患者状态。损失函数的设计需要考虑如何有效地利用缺失模式信息,例如,可以设计一个额外的损失项来惩罚模型对缺失模式的预测误差。具体的网络结构和参数设置需要根据实际数据集进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该框架在MIMIC-III数据集上,临床医生行为的FQE从0.528提升到0.679,72小时后死亡率预测的AUROC达到0.886。这些结果表明,该框架能够有效地利用信息缺失性,提升治疗策略学习和预后预测的性能。相较于现有方法,该框架具有显著的优势。

🎯 应用场景

该研究成果可应用于智能医疗领域,例如辅助医生进行临床决策、优化治疗方案、预测患者预后等。通过更准确地理解患者的健康状态,可以提高医疗质量,降低医疗成本,并改善患者的生存率。未来,该方法可以扩展到其他类型的医疗数据,例如基因组数据、影像数据等,从而实现更全面的患者健康管理。

📄 摘要(原文)

Multimodal clinical records contain structured measurements and clinical notes recorded over time, offering rich temporal information about the evolution of patient health. Yet these observations are sparse, and whether they are recorded depends on the patient's latent condition. Observation patterns also differ across modalities, as structured measurements and clinical notes arise under distinct recording processes. While prior work has developed methods that accommodate missingness in clinical time series, how to extract and use the information carried by the observation process itself remains underexplored. We therefore propose a patient representation learning framework for multimodal clinical time series that explicitly leverages informative missingness. The framework combines (1) a multimodal encoder that captures signals from structured and textual data together with their observation patterns, (2) a Bayesian filtering module that updates a latent patient state over time from observed multimodal signals, and (3) downstream modules for offline treatment policy learning and patient outcome prediction based on the learned patient state. We evaluate the framework on ICU sepsis cohorts from MIMIC-III, MIMIC-IV, and eICU. It improves both offline treatment policy learning and adverse outcome prediction, achieving FQE 0.679 versus 0.528 for clinician behavior and AUROC 0.886 for post-72-hour mortality prediction on MIMIC-III.