Multimodal Disease Progression Modeling via Spatiotemporal Disentanglement and Multiscale Alignment

📄 arXiv: 2510.11112v1 📥 PDF

作者: Chen Liu, Wenfang Yao, Kejing Yin, William K. Cheung, Jing Qin

分类: cs.CV

发布日期: 2025-10-13

备注: NeurIPS 2025 Spotlight


💡 一句话要点

DiPro:通过时空解耦和多尺度对齐进行多模态疾病进展建模

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 疾病进展建模 时空解耦 多尺度对齐 电子健康记录 胸部X光片 医学影像分析 时间序列分析

📋 核心要点

  1. 现有方法难以有效利用纵向多模态数据(CXR和EHR)进行疾病进展建模,主要挑战在于CXR序列冗余和数据时间错位。
  2. DiPro框架通过解耦CXR中的静态解剖特征和动态病理进展特征,并进行多时间尺度对齐,从而建模连贯的疾病进展路径。
  3. 在MIMIC数据集上的实验表明,DiPro在疾病进展识别和ICU预测任务上均取得了优于现有技术水平的性能。

📝 摘要(中文)

本文提出了一种名为DiPro的新框架,旨在解决纵向多模态数据(包括电子健康记录EHR和连续胸部X光片CXR)在疾病进展建模中的应用不足问题。该问题主要源于两个挑战:一是连续CXR序列中的冗余,其中静态解剖区域占据主导地位,而临床意义上的动态变化较少;二是稀疏、不规则的影像数据与连续EHR数据之间的时间错位。DiPro通过区域感知解耦和多时间尺度对齐来应对这些挑战。首先,它解耦了连续CXR中的静态(解剖结构)和动态(病理进展)特征,优先考虑与疾病相关的变化。其次,通过局部(成对间隔级别)和全局(完整序列)同步,将这些静态和动态CXR特征与异步EHR数据分层对齐,以建模连贯的进展路径。在MIMIC数据集上的大量实验表明,DiPro可以有效地提取时间临床动态,并在疾病进展识别和一般ICU预测任务上实现最先进的性能。

🔬 方法详解

问题定义:论文旨在解决利用纵向多模态数据(如胸部X光片CXR和电子健康记录EHR)进行疾病进展建模时遇到的两个主要问题。一是CXR序列中存在大量冗余信息,静态的解剖结构占据主导,而真正反映疾病进展的动态变化较少。二是CXR数据通常是稀疏且不规则的,与连续的EHR数据存在时间上的错位,难以有效融合。

核心思路:论文的核心思路是通过解耦CXR图像中的静态和动态特征,并采用多时间尺度对齐的方式,将CXR特征与EHR数据进行有效融合,从而更好地建模疾病的进展过程。解耦操作旨在突出疾病相关的动态变化,减少静态解剖结构的影响。多时间尺度对齐则考虑了CXR和EHR数据在时间粒度上的差异,通过局部和全局的同步来建立它们之间的联系。

技术框架:DiPro框架主要包含以下几个模块:1) CXR特征提取与解耦:使用卷积神经网络提取CXR图像的特征,并通过对抗训练等方法将特征解耦为静态(解剖结构)和动态(病理进展)两部分。2) EHR特征提取:使用循环神经网络(RNN)或Transformer等模型提取EHR数据的时间序列特征。3) 多时间尺度对齐:采用局部(pairwise interval-level)和全局(full-sequence)两种方式将CXR特征与EHR特征进行对齐。局部对齐关注相邻时间间隔内的特征关联,全局对齐则考虑整个时间序列的整体一致性。4) 疾病进展建模:将对齐后的CXR和EHR特征输入到分类器或回归器中,用于预测疾病的进展状态或风险。

关键创新:该论文的关键创新在于:1) 提出了区域感知的CXR特征解耦方法,能够有效区分静态解剖结构和动态病理进展,从而更好地捕捉疾病相关的变化。2) 提出了多时间尺度对齐策略,能够有效融合稀疏、不规则的CXR数据和连续的EHR数据,克服了数据时间错位的问题。

关键设计:在CXR特征解耦方面,可能采用了对抗训练的方式,即训练一个判别器来区分静态和动态特征,并训练一个生成器来生成难以被判别器区分的特征。损失函数可能包括重构损失、对抗损失和正则化项。在多时间尺度对齐方面,局部对齐可能使用了注意力机制来学习相邻时间间隔内CXR和EHR特征之间的关联权重,全局对齐可能使用了动态时间规整(DTW)或类似的方法来对齐整个时间序列。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DiPro在MIMIC数据集上取得了显著的性能提升。在疾病进展识别任务上,DiPro的性能优于现有的基线方法,表明其能够更有效地提取时间临床动态。在一般的ICU预测任务上,DiPro也取得了state-of-the-art的性能,验证了其在临床预测方面的有效性。具体的性能数据和提升幅度在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于多种临床场景,例如:疾病早期诊断、个性化治疗方案制定、患者风险评估和预后预测。通过整合影像和电子病历数据,可以更全面地了解患者的疾病进展情况,从而为临床决策提供更准确的依据。此外,该方法还可以推广到其他疾病的建模和预测,具有广泛的应用前景。

📄 摘要(原文)

Longitudinal multimodal data, including electronic health records (EHR) and sequential chest X-rays (CXRs), is critical for modeling disease progression, yet remains underutilized due to two key challenges: (1) redundancy in consecutive CXR sequences, where static anatomical regions dominate over clinically-meaningful dynamics, and (2) temporal misalignment between sparse, irregular imaging and continuous EHR data. We introduce $\texttt{DiPro}$, a novel framework that addresses these challenges through region-aware disentanglement and multi-timescale alignment. First, we disentangle static (anatomy) and dynamic (pathology progression) features in sequential CXRs, prioritizing disease-relevant changes. Second, we hierarchically align these static and dynamic CXR features with asynchronous EHR data via local (pairwise interval-level) and global (full-sequence) synchronization to model coherent progression pathways. Extensive experiments on the MIMIC dataset demonstrate that $\texttt{DiPro}$ could effectively extract temporal clinical dynamics and achieve state-of-the-art performance on both disease progression identification and general ICU prediction tasks.