When Does Multimodal Learning Help in Healthcare? A Benchmark on EHR and Chest X-Ray Fusion

作者: Kejing Yin, Haizhou Xu, Wenfang Yao, Chen Liu, Zijie Chen, Yui Haang Cheung, William K. Cheung, Jing Qin

分类: cs.LG, cs.AI

发布日期: 2026-02-27

🔗 代码/项目: GITHUB

💡 一句话要点

CareBench：系统性评估EHR与胸部X光融合在医疗场景下的有效性、鲁棒性与公平性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 电子健康记录 胸部X光 临床决策支持 模态缺失 算法公平性 基准测试 医疗人工智能

📋 核心要点

现有方法在模态缺失、公平性约束等实际医疗场景下，多模态学习的有效性尚不明确。
通过系统性基准测试EHR和胸部X光的多模态融合，分析其在临床预测、鲁棒性和公平性方面的表现。
研究发现模态完整时多模态融合有效，但模态缺失会迅速降低性能，且不能固有地提高公平性。

📝 摘要（中文）

机器学习在推进临床决策支持方面展现出潜力，但多模态学习在实践中何时真正有效仍不清楚，尤其是在模态缺失和公平性约束下。本文对来自MIMIC-IV和MIMIC-CXR的标准队列上的电子健康记录（EHR）和胸部X光（CXR）之间的多模态融合进行了系统性基准测试，旨在回答四个基本问题：多模态融合何时能改善临床预测，不同的融合策略如何比较，现有方法对模态缺失的鲁棒性如何，以及多模态模型是否能实现算法公平性。研究揭示了几个关键见解。当模态完整时，多模态融合可以提高性能，收益集中在需要EHR和CXR互补信息的疾病中。虽然跨模态学习机制捕获了超出简单连接的临床意义依赖关系，但EHR丰富的时序结构引入了强大的模态不平衡，仅靠架构复杂性无法克服。在现实的缺失情况下，除非模型被明确设计为处理不完整的输入，否则多模态优势会迅速下降。此外，多模态融合并不能固有地提高公平性，亚组差异主要源于不同人口群体之间不相等的敏感性。为了支持可重复和可扩展的评估，我们进一步发布了一个灵活的基准测试工具包，可以即插即用地集成新的模型和数据集。总而言之，这项工作为多模态学习何时有效、何时失败以及原因提供了可操作的指导，为开发有效且可靠的临床可部署多模态系统奠定了基础。

🔬 方法详解

问题定义：论文旨在解决在医疗健康领域，特别是电子健康记录（EHR）和胸部X光（CXR）融合的多模态学习中，何时以及如何才能真正提升临床预测性能的问题。现有方法在处理模态缺失、保证算法公平性以及有效利用EHR的时序信息方面存在不足，导致多模态融合的实际效果并不理想。

核心思路：论文的核心思路是通过构建一个系统性的基准测试框架，对不同的多模态融合策略进行全面评估，从而揭示多模态学习在不同场景下的优势与局限。通过分析模态完整性、融合策略、模型鲁棒性和算法公平性等关键因素，为开发临床可部署的多模态系统提供指导。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 数据准备：使用MIMIC-IV和MIMIC-CXR数据集，构建标准化的EHR和CXR队列。2) 模型构建：实现和评估多种多模态融合模型，包括简单的连接（concatenation）方法和更复杂的跨模态学习机制。3) 实验评估：在不同的实验设置下，评估模型的预测性能、鲁棒性和公平性。4) 基准测试工具包：开发一个灵活的基准测试工具包，方便集成新的模型和数据集。

关键创新：论文的关键创新在于：1) 系统性的基准测试：首次对EHR和CXR融合的多模态学习进行了全面的基准测试，涵盖了模态缺失、融合策略、鲁棒性和公平性等多个方面。2) 揭示了EHR时序结构的重要性：强调了EHR丰富的时序结构对多模态融合的影响，并指出仅靠架构复杂性难以克服模态不平衡问题。3) 强调了模态缺失的处理：指出在现实的缺失情况下，需要专门设计模型来处理不完整的输入，才能保证多模态融合的有效性。

关键设计：论文的关键设计包括：1) 多种融合策略的比较：评估了不同的融合策略，包括简单的连接方法和更复杂的跨模态学习机制。2) 模态缺失的处理：设计了专门处理模态缺失的模型，例如使用masking策略或imputation方法。3) 公平性评估：采用了多种公平性指标，例如敏感性差异，来评估模型的公平性。

🖼️ 关键图片

📊 实验亮点

研究表明，当模态完整时，多模态融合可以提高性能，尤其是在需要EHR和CXR互补信息的疾病中。然而，在现实的模态缺失情况下，除非模型被明确设计为处理不完整的输入，否则多模态优势会迅速下降。此外，研究发现多模态融合并不能固有地提高公平性，亚组差异主要源于不同人口群体之间不相等的敏感性。

🎯 应用场景

该研究成果可应用于临床决策支持系统，帮助医生更准确地诊断疾病、预测患者预后。通过有效融合EHR和影像数据，可以提高诊断效率和准确性，减少误诊和漏诊。此外，该研究提出的基准测试工具包可以促进多模态学习在医疗领域的研究和应用，加速临床可部署多模态系统的开发。

📄 摘要（原文）

Machine learning holds promise for advancing clinical decision support, yet it remains unclear when multimodal learning truly helps in practice, particularly under modality missingness and fairness constraints. In this work, we conduct a systematic benchmark of multimodal fusion between Electronic Health Records (EHR) and chest X-rays (CXR) on standardized cohorts from MIMIC-IV and MIMIC-CXR, aiming to answer four fundamental questions: when multimodal fusion improves clinical prediction, how different fusion strategies compare, how robust existing methods are to missing modalities, and whether multimodal models achieve algorithmic fairness. Our study reveals several key insights. Multimodal fusion improves performance when modalities are complete, with gains concentrating in diseases that require complementary information from both EHR and CXR. While cross-modal learning mechanisms capture clinically meaningful dependencies beyond simple concatenation, the rich temporal structure of EHR introduces strong modality imbalance that architectural complexity alone cannot overcome. Under realistic missingness, multimodal benefits rapidly degrade unless models are explicitly designed to handle incomplete inputs. Moreover, multimodal fusion does not inherently improve fairness, with subgroup disparities mainly arising from unequal sensitivity across demographic groups. To support reproducible and extensible evaluation, we further release a flexible benchmarking toolkit that enables plug-and-play integration of new models and datasets. Together, this work provides actionable guidance on when multimodal learning helps, when it fails, and why, laying the foundation for developing clinically deployable multimodal systems that are both effective and reliable. The open-source toolkit can be found at https://github.com/jakeykj/CareBench.

When Does Multimodal Learning Help in Healthcare? A Benchmark on EHR and Chest X-Ray Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理