MEDFuse: Multimodal EHR Data Fusion with Masked Lab-Test Modeling and Large Language Models
作者: Thao Minh Nguyen Phan, Cong-Tinh Dao, Chenwei Wu, Jian-Zhe Wang, Shun Liu, Jun-En Ding, David Restrepo, Feng Liu, Fang-Ming Hung, Wen-Chih Peng
分类: cs.CL
发布日期: 2024-07-17
💡 一句话要点
提出MEDFuse以解决多模态电子健康记录数据融合问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 电子健康记录 大型语言模型 临床决策支持 实验室测试建模
📋 核心要点
- 现有的EHR预测模型往往只关注单一模态,未能有效利用多模态数据的互补性,导致临床决策支持不足。
- MEDFuse通过结合掩蔽实验室测试建模和大型语言模型,设计了一个多模态数据融合框架,旨在提取有用的联合表示。
- 在MIMIC-III和FEMH数据集上的实验结果显示,MEDFuse在多标签分类任务中达到了超过90%的F1分数,显著提升了预测性能。
📝 摘要(中文)
电子健康记录(EHR)本质上是多模态的,包含结构化的实验室测试数据和非结构化的临床笔记。在实际临床中,医生利用多模态EHR数据源来更清晰地了解患者健康状况并支持临床决策。然而,大多数EHR预测模型要么专注于单一模态,要么忽视模态间的相互作用和冗余。为此,本文提出了MEDFuse,一个结合了掩蔽实验室测试建模和大型语言模型(LLMs)的多模态EHR数据融合框架。MEDFuse通过从两个来源提取多模态嵌入:在自由临床文本上微调的LLMs和在结构化实验室测试结果上训练的掩蔽表格变换器。通过在公共MIMIC-III数据集和内部FEMH数据集上的全面验证,MEDFuse在10种疾病的多标签分类任务中实现了超过90%的F1分数,展现了在临床预测中的巨大潜力。
🔬 方法详解
问题定义:本文旨在解决多模态电子健康记录(EHR)数据融合的问题。现有方法往往忽视模态间的相互作用,导致信息利用不充分,影响临床决策的准确性。
核心思路:MEDFuse的核心思路是通过结合掩蔽实验室测试建模和大型语言模型(LLMs),有效整合结构化和非结构化的医疗数据,从而提取更有价值的联合表示。
技术框架:MEDFuse的整体架构包括两个主要模块:一是基于LLMs的临床文本嵌入,二是基于掩蔽表格变换器的实验室测试结果嵌入。通过设计一个解耦变换器模块,优化互信息损失,来分离模态特定信息和共享信息。
关键创新:MEDFuse的关键创新在于其解耦变换器模块,能够有效提取有用的联合表示,克服了现有方法在模态冗余和噪声处理上的不足。
关键设计:在设计上,MEDFuse采用了互信息损失函数来优化模态信息的提取,并利用微调的LLMs和掩蔽表格变换器来生成多模态嵌入,确保信息的有效融合。
🖼️ 关键图片
📊 实验亮点
在MIMIC-III和FEMH数据集上的实验结果显示,MEDFuse在10种疾病的多标签分类任务中达到了超过90%的F1分数,显著优于传统的单模态模型,展现了其在临床预测中的强大能力和潜力。
🎯 应用场景
MEDFuse在临床预测中的潜在应用广泛,能够帮助医生更准确地评估患者健康状况,支持临床决策。随着医疗数据的不断增加,该框架有望在个性化医疗、疾病预警和健康管理等领域发挥重要作用,提升医疗服务的质量与效率。
📄 摘要(原文)
Electronic health records (EHRs) are multimodal by nature, consisting of structured tabular features like lab tests and unstructured clinical notes. In real-life clinical practice, doctors use complementary multimodal EHR data sources to get a clearer picture of patients' health and support clinical decision-making. However, most EHR predictive models do not reflect these procedures, as they either focus on a single modality or overlook the inter-modality interactions/redundancy. In this work, we propose MEDFuse, a Multimodal EHR Data Fusion framework that incorporates masked lab-test modeling and large language models (LLMs) to effectively integrate structured and unstructured medical data. MEDFuse leverages multimodal embeddings extracted from two sources: LLMs fine-tuned on free clinical text and masked tabular transformers trained on structured lab test results. We design a disentangled transformer module, optimized by a mutual information loss to 1) decouple modality-specific and modality-shared information and 2) extract useful joint representation from the noise and redundancy present in clinical notes. Through comprehensive validation on the public MIMIC-III dataset and the in-house FEMH dataset, MEDFuse demonstrates great potential in advancing clinical predictions, achieving over 90% F1 score in the 10-disease multi-label classification task.