MedM2T: A MultiModal Framework for Time-Aware Modeling with Electronic Health Record and Electrocardiogram Data
作者: Yu-Chen Kuo, Yi-Ju Tseng
分类: cs.LG
发布日期: 2025-10-31
备注: This preprint version of the manuscript has been submitted to the IEEE Journal of Biomedical and Health Informatics (JBHI) for review. The implementation of MedM2T is available at https://github.com/DHLab-TSENG/MedM2T
🔗 代码/项目: GITHUB
💡 一句话要点
MedM2T:一种用于电子病历和心电图数据的时间感知多模态建模框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 时间序列建模 电子病历 心电图 临床预测 注意力机制 医学人工智能
📋 核心要点
- 医学数据具有多模态和异构时间结构,现有方法难以有效建模这些复杂性,导致预测精度受限。
- MedM2T通过稀疏时间序列编码器、分层时间感知融合和双模态注意力机制,提取多模态医学数据中的时间模式和跨模态交互。
- 实验表明,MedM2T在心血管疾病预测、住院死亡率预测和ICU住院时长回归等任务上,显著优于现有方法。
📝 摘要(中文)
本文提出MedM2T,一个时间感知多模态框架,旨在解决医学数据固有的多模态性和异构时间结构带来的建模挑战。MedM2T集成了:(i)稀疏时间序列编码器,灵活处理不规则和稀疏的时间序列;(ii)分层时间感知融合,捕获来自多个密集时间序列(如心电图)的微观和宏观时间模式;(iii)双模态注意力,提取跨模态交互,可扩展到任意数量的模态。为了缓解模态之间的粒度差距,MedM2T使用模态特定的预训练编码器,并在共享编码器中对齐生成的特征。我们在MIMIC-IV和MIMIC-IV-ECG数据集上评估了MedM2T,用于涵盖慢性病和急性病动态的三个任务:90天心血管疾病(CVD)预测、住院死亡率预测和ICU住院时长(LOS)回归。MedM2T优于最先进的多模态学习框架和现有的时间序列模型,在CVD预测中实现了0.947的AUROC和0.706的AUPRC;在死亡率预测中实现了0.901的AUROC和0.558的AUPRC;在LOS回归中实现了2.31的平均绝对误差(MAE)。这些结果突出了MedM2T的鲁棒性和广泛适用性,使其成为临床预测中一个有前景的工具。我们提供了MedM2T的实现,地址为https://github.com/DHLab-TSENG/MedM2T。
🔬 方法详解
问题定义:论文旨在解决电子病历(EHR)和心电图(ECG)等多模态医学数据的时间感知建模问题。现有方法难以有效处理医学数据中普遍存在的稀疏、不规则时间序列以及模态间的异构性,导致临床预测任务的性能瓶颈。
核心思路:论文的核心思路是设计一个能够灵活处理不同类型时间序列,并有效融合多模态信息的框架。通过模态特定的预训练编码器缓解模态间的粒度差异,并利用注意力机制学习跨模态交互,从而提升临床预测的准确性和鲁棒性。
技术框架:MedM2T框架包含三个主要模块:(1)稀疏时间序列编码器,用于处理不规则和稀疏的时间序列数据;(2)分层时间感知融合模块,用于捕获来自密集时间序列(如ECG)的微观和宏观时间模式;(3)双模态注意力模块,用于提取跨模态交互信息。框架首先使用模态特定的预训练编码器对不同模态的数据进行编码,然后在共享编码器中对齐特征,最后利用上述三个模块进行时间感知的多模态融合。
关键创新:MedM2T的关键创新在于其时间感知的多模态融合机制。与现有方法相比,MedM2T能够更有效地处理医学数据中复杂的时间依赖关系和模态间的异构性。此外,框架的设计具有良好的可扩展性,可以方便地扩展到更多模态的数据。
关键设计:MedM2T使用了模态特定的预训练编码器,例如,对于ECG数据,可以使用预训练的心电图模型。稀疏时间序列编码器可能采用RNN或Transformer结构,并针对稀疏数据进行优化。分层时间感知融合模块可能使用不同时间尺度的卷积或注意力机制。双模态注意力模块可以使用标准的注意力机制,例如Scaled Dot-Product Attention。损失函数根据具体的预测任务选择,例如,对于分类任务可以使用交叉熵损失,对于回归任务可以使用均方误差损失。
📊 实验亮点
MedM2T在MIMIC-IV和MIMIC-IV-ECG数据集上进行了评估,并在三个临床预测任务上取得了显著的性能提升。在90天心血管疾病预测中,MedM2T的AUROC达到0.947,AUPRC达到0.706。在住院死亡率预测中,AUROC达到0.901,AUPRC达到0.558。在ICU住院时长回归中,MAE达到2.31。这些结果表明,MedM2T优于现有的多模态学习框架和时间序列模型。
🎯 应用场景
MedM2T具有广泛的临床应用前景,可用于疾病风险预测、病情监测、个性化治疗方案制定等。通过整合电子病历和心电图等多模态数据,MedM2T能够更全面地了解患者的健康状况,从而为临床决策提供更准确的依据。该研究有望提高医疗效率,改善患者预后。
📄 摘要(原文)
The inherent multimodality and heterogeneous temporal structures of medical data pose significant challenges for modeling. We propose MedM2T, a time-aware multimodal framework designed to address these complexities. MedM2T integrates: (i) Sparse Time Series Encoder to flexibly handle irregular and sparse time series, (ii) Hierarchical Time-Aware Fusion to capture both micro- and macro-temporal patterns from multiple dense time series, such as ECGs, and (iii) Bi-Modal Attention to extract cross-modal interactions, which can be extended to any number of modalities. To mitigate granularity gaps between modalities, MedM2T uses modality-specific pre-trained encoders and aligns resulting features within a shared encoder. We evaluated MedM2T on MIMIC-IV and MIMIC-IV-ECG datasets for three tasks that encompass chronic and acute disease dynamics: 90-day cardiovascular disease (CVD) prediction, in-hospital mortality prediction, and ICU length-of-stay (LOS) regression. MedM2T outperformed state-of-the-art multimodal learning frameworks and existing time series models, achieving an AUROC of 0.947 and an AUPRC of 0.706 for CVD prediction; an AUROC of 0.901 and an AUPRC of 0.558 for mortality prediction; and Mean Absolute Error (MAE) of 2.31 for LOS regression. These results highlight the robustness and broad applicability of MedM2T, positioning it as a promising tool in clinical prediction. We provide the implementation of MedM2T at https://github.com/DHLab-TSENG/MedM2T.