MANGO: Multimodal Acuity traNsformer for intelliGent ICU Outcomes

📄 arXiv: 2412.17832v1 📥 PDF

作者: Jiaqing Zhang, Miguel Contreras, Sabyasachi Bandyopadhyay, Andrea Davidson, Jessica Sena, Yuanfang Ren, Ziyuan Guan, Tezcan Ozrazgat-Baslanti, Tyler J. Loftus, Subhash Nerella, Azra Bihorac, Parisa Rashidi

分类: eess.SP, cs.AI, cs.LG

发布日期: 2024-12-13


💡 一句话要点

MANGO:多模态 Acuity Transformer 用于智能 ICU 预后

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 Transformer ICU预后 病情预测 自注意力机制

📋 核心要点

  1. 现有ICU患者病情预测主要依赖电子健康记录,忽略了患者活动能力、环境因素和面部表情等关键信息。
  2. MANGO模型通过Transformer融合电子健康记录、可穿戴传感器、视频和环境等多模态数据,捕捉复杂交互。
  3. 实验表明,MANGO模型在预测病情状态、状态转变和维持生命治疗需求方面显著优于现有方法。

📝 摘要(中文)

本研究提出了 MANGO(Multimodal Acuity traNsformer for intelliGent ICU Outcomes),旨在提升对重症监护室(ICU)患者病情严重程度、状态转变以及对维持生命治疗的需求的预测。MANGO 模型利用包含电子健康记录(EHR)数据、可穿戴传感器数据、患者面部表情视频和环境传感器数据的多模态数据集 ICU-Multimodal 进行训练。该模型采用基于 Transformer 掩码自注意力方法的多模态特征融合网络,能够捕捉和学习不同数据模态之间的复杂交互,即使某些模态缺失也能有效工作。实验结果表明,整合多种模态显著提高了模型预测病情严重程度、状态转变以及对维持生命治疗需求的能力。最佳模型在预测病情状态转变和维持生命治疗需求方面的受试者工作特征曲线下面积(AUROC)达到 0.76(95% CI: 0.72-0.79),在病情状态预测方面的 AUROC 达到 0.82(95% CI: 0.69-0.89)。

🔬 方法详解

问题定义:现有ICU患者病情预测方法主要依赖电子健康记录(EHR)数据,忽略了患者的活动能力、环境因素以及面部表情等重要信息,导致预测精度受限。这些被忽略的信息可能包含病情恶化的早期预警信号,从而影响及时干预。

核心思路:本研究的核心思路是利用多模态数据融合,将EHR数据与可穿戴传感器数据、患者面部表情视频以及环境传感器数据相结合,更全面地评估患者的病情。通过Transformer模型学习不同模态之间的复杂关联,提高预测精度。

技术框架:MANGO模型的技术框架主要包括数据采集、多模态特征提取和融合、以及预测模型训练三个阶段。首先,收集ICU-Multimodal数据集,包含EHR、可穿戴设备、视频和环境数据。然后,对每种模态的数据进行特征提取。最后,使用基于Transformer的掩码自注意力机制进行多模态特征融合,并训练预测模型,输出病情状态、状态转变和维持生命治疗需求等预测结果。

关键创新:MANGO模型最重要的技术创新点在于其多模态特征融合方法,它利用Transformer的自注意力机制,能够有效地捕捉不同模态数据之间的复杂交互关系。此外,该模型采用掩码自注意力机制,使其在某些模态数据缺失的情况下仍能保持较好的预测性能。与现有方法相比,MANGO模型能够更全面地利用ICU患者的各种信息,从而提高预测精度。

关键设计:MANGO模型使用Transformer编码器进行多模态特征融合。具体来说,每种模态的数据首先经过独立的嵌入层进行特征提取,然后将提取的特征输入到Transformer编码器中。编码器使用多头自注意力机制来学习不同模态之间的关联。为了处理模态缺失的情况,模型采用掩码自注意力机制,即在计算注意力权重时,将缺失模态对应的注意力权重设置为零。损失函数包括交叉熵损失和均方误差损失,分别用于分类和回归任务。具体参数设置(如Transformer层数、注意力头数等)未知。

📊 实验亮点

实验结果表明,MANGO模型在预测ICU患者病情状态转变和维持生命治疗需求方面的AUROC达到0.76(95% CI: 0.72-0.79),在病情状态预测方面的AUROC达到0.82(95% CI: 0.69-0.89)。这些结果表明,与仅使用EHR数据的方法相比,MANGO模型能够显著提高预测精度。

🎯 应用场景

MANGO模型可应用于ICU患者的病情监测和预后评估,帮助医护人员及时发现病情恶化风险,制定更合理的治疗方案,提高患者生存率。此外,该模型还可用于ICU资源优化配置,例如根据患者病情严重程度合理分配医护人员和设备。未来,该技术有望推广到其他医疗场景,例如急诊科和康复科。

📄 摘要(原文)

Estimation of patient acuity in the Intensive Care Unit (ICU) is vital to ensure timely and appropriate interventions. Advances in artificial intelligence (AI) technologies have significantly improved the accuracy of acuity predictions. However, prior studies using machine learning for acuity prediction have predominantly relied on electronic health records (EHR) data, often overlooking other critical aspects of ICU stay, such as patient mobility, environmental factors, and facial cues indicating pain or agitation. To address this gap, we present MANGO: the Multimodal Acuity traNsformer for intelliGent ICU Outcomes, designed to enhance the prediction of patient acuity states, transitions, and the need for life-sustaining therapy. We collected a multimodal dataset ICU-Multimodal, incorporating four key modalities, EHR data, wearable sensor data, video of patient's facial cues, and ambient sensor data, which we utilized to train MANGO. The MANGO model employs a multimodal feature fusion network powered by Transformer masked self-attention method, enabling it to capture and learn complex interactions across these diverse data modalities even when some modalities are absent. Our results demonstrated that integrating multiple modalities significantly improved the model's ability to predict acuity status, transitions, and the need for life-sustaining therapy. The best-performing models achieved an area under the receiver operating characteristic curve (AUROC) of 0.76 (95% CI: 0.72-0.79) for predicting transitions in acuity status and the need for life-sustaining therapy, while 0.82 (95% CI: 0.69-0.89) for acuity status prediction...