MEDFuse: Multimodal EHR Data Fusion with Masked Lab-Test Modeling and Large Language Models

作者: Thao Minh Nguyen Phan, Cong-Tinh Dao, Chenwei Wu, Jian-Zhe Wang, Shun Liu, Jun-En Ding, David Restrepo, Feng Liu, Fang-Ming Hung, Wen-Chih Peng

分类: cs.CL

发布日期: 2024-07-17

💡 一句话要点

提出MEDFuse以解决多模态电子健康记录数据融合问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 电子健康记录 大型语言模型 临床决策支持 实验室测试建模

📋 核心要点

现有的EHR预测模型往往只关注单一模态，未能有效利用多模态数据的互补性，导致临床决策支持不足。
MEDFuse通过结合掩蔽实验室测试建模和大型语言模型，设计了一个多模态数据融合框架，旨在提取有用的联合表示。
在MIMIC-III和FEMH数据集上的实验结果显示，MEDFuse在多标签分类任务中达到了超过90%的F1分数，显著提升了预测性能。

📝 摘要（中文）

电子健康记录（EHR）本质上是多模态的，包含结构化的实验室测试数据和非结构化的临床笔记。在实际临床中，医生利用多模态EHR数据源来更清晰地了解患者健康状况并支持临床决策。然而，大多数EHR预测模型要么专注于单一模态，要么忽视模态间的相互作用和冗余。为此，本文提出了MEDFuse，一个结合了掩蔽实验室测试建模和大型语言模型（LLMs）的多模态EHR数据融合框架。MEDFuse通过从两个来源提取多模态嵌入：在自由临床文本上微调的LLMs和在结构化实验室测试结果上训练的掩蔽表格变换器。通过在公共MIMIC-III数据集和内部FEMH数据集上的全面验证，MEDFuse在10种疾病的多标签分类任务中实现了超过90%的F1分数，展现了在临床预测中的巨大潜力。

🔬 方法详解

问题定义：本文旨在解决多模态电子健康记录（EHR）数据融合的问题。现有方法往往忽视模态间的相互作用，导致信息利用不充分，影响临床决策的准确性。

核心思路：MEDFuse的核心思路是通过结合掩蔽实验室测试建模和大型语言模型（LLMs），有效整合结构化和非结构化的医疗数据，从而提取更有价值的联合表示。

技术框架：MEDFuse的整体架构包括两个主要模块：一是基于LLMs的临床文本嵌入，二是基于掩蔽表格变换器的实验室测试结果嵌入。通过设计一个解耦变换器模块，优化互信息损失，来分离模态特定信息和共享信息。

关键创新：MEDFuse的关键创新在于其解耦变换器模块，能够有效提取有用的联合表示，克服了现有方法在模态冗余和噪声处理上的不足。

关键设计：在设计上，MEDFuse采用了互信息损失函数来优化模态信息的提取，并利用微调的LLMs和掩蔽表格变换器来生成多模态嵌入，确保信息的有效融合。

🖼️ 关键图片

📊 实验亮点

在MIMIC-III和FEMH数据集上的实验结果显示，MEDFuse在10种疾病的多标签分类任务中达到了超过90%的F1分数，显著优于传统的单模态模型，展现了其在临床预测中的强大能力和潜力。

🎯 应用场景

MEDFuse在临床预测中的潜在应用广泛，能够帮助医生更准确地评估患者健康状况，支持临床决策。随着医疗数据的不断增加，该框架有望在个性化医疗、疾病预警和健康管理等领域发挥重要作用，提升医疗服务的质量与效率。

📄 摘要（原文）

Electronic health records (EHRs) are multimodal by nature, consisting of structured tabular features like lab tests and unstructured clinical notes. In real-life clinical practice, doctors use complementary multimodal EHR data sources to get a clearer picture of patients' health and support clinical decision-making. However, most EHR predictive models do not reflect these procedures, as they either focus on a single modality or overlook the inter-modality interactions/redundancy. In this work, we propose MEDFuse, a Multimodal EHR Data Fusion framework that incorporates masked lab-test modeling and large language models (LLMs) to effectively integrate structured and unstructured medical data. MEDFuse leverages multimodal embeddings extracted from two sources: LLMs fine-tuned on free clinical text and masked tabular transformers trained on structured lab test results. We design a disentangled transformer module, optimized by a mutual information loss to 1) decouple modality-specific and modality-shared information and 2) extract useful joint representation from the noise and redundancy present in clinical notes. Through comprehensive validation on the public MIMIC-III dataset and the in-house FEMH dataset, MEDFuse demonstrates great potential in advancing clinical predictions, achieving over 90% F1 score in the 10-disease multi-label classification task.

MEDFuse: Multimodal EHR Data Fusion with Masked Lab-Test Modeling and Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理