MoMA: A Mixture-of-Multimodal-Agents Architecture for Enhancing Clinical Prediction Modelling

📄 arXiv: 2508.05492v1 📥 PDF

作者: Jifan Gao, Mahmudur Rahman, John Caskey, Madeline Oguss, Ann O'Rourke, Randy Brown, Anne Stey, Anoop Mayampurath, Matthew M. Churpek, Guanhua Chen, Majid Afshar

分类: cs.LG, cs.AI, cs.MA

发布日期: 2025-08-07


💡 一句话要点

MoMA:一种混合多模态Agent架构,用于增强临床预测建模

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 临床预测 大型语言模型 电子病历 Agent架构

📋 核心要点

  1. 现有临床预测模型难以有效整合电子病历中的多种模态数据,尤其是非文本数据,导致预测精度受限。
  2. MoMA架构利用多个LLM Agent,将不同模态数据转换为文本摘要,再进行整合和预测,实现多模态信息的有效融合。
  3. 实验结果表明,MoMA在多个临床预测任务上优于现有方法,证明了其在处理多模态数据方面的优越性和泛化能力。

📝 摘要(中文)

多模态电子病历(EHR)数据相比于单一模态数据,能够提供更丰富、互补的患者健康信息。然而,由于大量的数据需求,有效整合多样的数据模态进行临床预测建模仍然具有挑战性。本文提出了一种新颖的架构,即混合多模态Agent(MoMA),旨在利用多个大型语言模型(LLM) Agent处理多模态EHR数据,用于临床预测任务。MoMA采用专门的LLM Agent(“专家Agent”)将非文本模态(如医学图像和实验室结果)转换为结构化的文本摘要。这些摘要与临床笔记一起,由另一个LLM(“聚合Agent”)组合生成统一的多模态摘要,然后由第三个LLM(“预测Agent”)用于生成临床预测。在具有不同模态组合和预测设置的真实世界数据集上,针对三个预测任务评估MoMA,结果表明MoMA优于当前最先进的方法,突出了其在各种任务中的增强的准确性和灵活性。

🔬 方法详解

问题定义:论文旨在解决临床预测建模中,如何有效整合多模态电子病历数据的问题。现有方法难以充分利用非文本数据(如医学图像和实验室结果),导致预测精度不高。同时,直接训练端到端的多模态模型需要大量标注数据,成本高昂。

核心思路:论文的核心思路是将多模态数据处理分解为多个Agent协同完成的任务。每个Agent负责处理特定模态的数据,并将其转化为统一的文本表示。然后,通过聚合Agent将不同模态的文本信息融合,最终由预测Agent进行预测。这种模块化的设计降低了模型复杂度,提高了可解释性。

技术框架:MoMA架构包含三个主要模块:专家Agent、聚合Agent和预测Agent。专家Agent负责将非文本模态数据(如医学图像、实验室结果)转换为结构化的文本摘要。聚合Agent接收来自专家Agent的文本摘要和临床笔记,生成统一的多模态摘要。预测Agent利用多模态摘要进行临床预测。整个流程是顺序执行的,每个Agent都是一个独立的LLM。

关键创新:MoMA的关键创新在于其混合多模态Agent架构,将复杂的临床预测任务分解为多个Agent协同完成的子任务。这种架构能够充分利用不同模态数据的互补信息,提高预测精度。此外,MoMA采用模块化的设计,易于扩展和定制,可以适应不同的临床预测任务和数据模态。

关键设计:论文中,专家Agent可以使用预训练的视觉语言模型或专门训练的模型,将医学图像转换为文本描述。聚合Agent可以使用注意力机制或Transformer模型,将不同模态的文本信息进行融合。预测Agent可以使用分类或回归模型,根据多模态摘要进行预测。具体的参数设置和网络结构需要根据具体的临床预测任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MoMA在三个临床预测任务上进行了评估,包括死亡率预测、ICU入院预测和长期住院预测。实验结果表明,MoMA在所有任务上都优于当前最先进的方法。例如,在死亡率预测任务中,MoMA的AUC提高了5%-10%。这些结果表明,MoMA能够有效整合多模态数据,提高临床预测的准确性。

🎯 应用场景

MoMA架构可应用于多种临床预测场景,例如疾病诊断、预后评估、风险预测等。通过整合电子病历中的多模态数据,MoMA能够提供更准确、全面的临床预测结果,辅助医生进行决策,改善患者的治疗效果。未来,MoMA还可以扩展到其他医疗领域,例如药物研发、个性化治疗等。

📄 摘要(原文)

Multimodal electronic health record (EHR) data provide richer, complementary insights into patient health compared to single-modality data. However, effectively integrating diverse data modalities for clinical prediction modeling remains challenging due to the substantial data requirements. We introduce a novel architecture, Mixture-of-Multimodal-Agents (MoMA), designed to leverage multiple large language model (LLM) agents for clinical prediction tasks using multimodal EHR data. MoMA employs specialized LLM agents ("specialist agents") to convert non-textual modalities, such as medical images and laboratory results, into structured textual summaries. These summaries, together with clinical notes, are combined by another LLM ("aggregator agent") to generate a unified multimodal summary, which is then used by a third LLM ("predictor agent") to produce clinical predictions. Evaluating MoMA on three prediction tasks using real-world datasets with different modality combinations and prediction settings, MoMA outperforms current state-of-the-art methods, highlighting its enhanced accuracy and flexibility across various tasks.