MARCUS: An agentic, multimodal vision-language model for cardiac diagnosis and management

📄 arXiv: 2603.22179v1 📥 PDF

作者: Jack W O'Sullivan, Mohammad Asadi, Lennart Elbe, Akshay Chaudhari, Tahoura Nedaee, Francois Haddad, Michael Salerno, Li Fe-Fei, Ehsan Adeli, Rima Arnaout, Euan A Ashley

分类: cs.AI

发布日期: 2026-03-23


💡 一句话要点

MARCUS:用于心脏诊断和管理的Agentic多模态视觉-语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 心脏诊断 医学影像 视觉-语言模型 Agentic架构

📋 核心要点

  1. 现有心血管疾病诊断依赖人工判读,耗时且易出错,AI模型缺乏多模态融合和交互能力。
  2. MARCUS采用分层agentic架构,利用领域知识训练的视觉编码器和多阶段语言模型优化,实现多模态数据融合。
  3. MARCUS在多种心脏影像诊断任务中超越现有SOTA模型,尤其在多模态诊断中提升显著,并开源模型代码。

📝 摘要(中文)

心血管疾病是全球死亡的主要原因,其进展受到复杂心脏测试的人工判读的阻碍。现有的AI视觉-语言模型仅限于单模态输入且缺乏交互性。我们提出了MARCUS(用于超声和信号的多模态自主推理和聊天),一个agentic视觉-语言系统,用于独立地以及作为多模态输入端到端地解释心电图(ECG)、超声心动图和心脏磁共振成像(CMR)。MARCUS采用分层agentic架构,包括特定模态的视觉-语言专家模型,每个模型都集成了领域训练的视觉编码器和多阶段语言模型优化,并由多模态协调器协调。MARCUS在1350万张图像(25万张ECG、130万张超声心动图图像、1200万张CMR图像)和我们新颖的专家策划的包含160万个问题的数据集上进行训练,实现了超越前沿模型(GPT-5 Thinking、Gemini 2.5 Pro Deep Think)的state-of-the-art性能。在内部(斯坦福)和外部(UCSF)测试队列中,MARCUS在ECG、超声心动图和CMR上的准确率分别达到87-91%、67-86%和85-88%,优于前沿模型34-45%(P<0.001)。在多模态案例中,MARCUS实现了70%的准确率,几乎是前沿模型(22-28%)的三倍,并且自由文本质量得分高出1.7-3.0倍。我们的agentic架构还具有抵抗幻觉推理的能力,即视觉-语言模型从意外的文本信号或虚构的视觉内容中得出推理。MARCUS证明了具有agentic协调器的领域特定视觉编码器能够实现多模态心脏解释。我们开源发布了我们的模型、代码和基准。

🔬 方法详解

问题定义:论文旨在解决心血管疾病诊断中,现有AI模型无法有效整合多种模态的心脏影像数据(如ECG、超声心动图、CMR)进行准确诊断的问题。现有方法通常是单模态的,或者在多模态融合方面表现不佳,容易受到幻觉信息的影响,导致诊断结果不准确。

核心思路:论文的核心思路是构建一个agentic的多模态视觉-语言模型MARCUS,该模型通过分层架构,将不同模态的视觉信息进行有效编码,并利用语言模型进行推理和诊断。Agentic架构的设计旨在提高模型的自主性和鲁棒性,减少对无关信息的依赖。

技术框架:MARCUS的整体架构包含以下几个主要模块:1) 模态特定的视觉-语言专家模型:针对ECG、超声心动图和CMR等不同模态,分别训练独立的视觉-语言模型,每个模型包含领域训练的视觉编码器和多阶段语言模型优化。2) 多模态协调器:负责协调不同模态的专家模型,将它们的信息进行融合,并做出最终的诊断决策。3) 数据集:使用包含1350万张图像和160万个问题的专家策划数据集进行训练。

关键创新:MARCUS的关键创新在于其agentic架构和领域特定的视觉编码器。Agentic架构使得模型能够自主地进行推理和决策,减少了对无关信息的依赖,提高了鲁棒性。领域特定的视觉编码器能够更好地提取心脏影像中的关键特征,提高了诊断的准确性。此外,多阶段语言模型优化也提升了模型的推理能力。

关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。但可以推测,视觉编码器可能采用了在医学影像领域常用的卷积神经网络(CNN)或Transformer结构,语言模型可能采用了预训练的语言模型(如BERT或GPT)进行微调。损失函数可能包括交叉熵损失、对比损失等,用于优化模型的分类和表示能力。具体参数设置和网络结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MARCUS在内部(斯坦福)和外部(UCSF)测试队列中,ECG准确率达到87-91%,超声心动图准确率达到67-86%,CMR准确率达到85-88%,显著优于前沿模型(GPT-5 Thinking、Gemini 2.5 Pro Deep Think),提升幅度达34-45%(P<0.001)。在多模态案例中,MARCUS准确率达到70%,几乎是前沿模型(22-28%)的三倍,自由文本质量得分高出1.7-3.0倍。

🎯 应用场景

MARCUS具有广泛的应用前景,可用于辅助医生进行心血管疾病的诊断和管理,提高诊断效率和准确性。该模型可以应用于远程医疗、移动医疗等场景,为缺乏专业医疗资源的地区提供高质量的医疗服务。未来,MARCUS有望成为心脏科医生的智能助手,辅助临床决策,改善患者预后。

📄 摘要(原文)

Cardiovascular disease remains the leading cause of global mortality, with progress hindered by human interpretation of complex cardiac tests. Current AI vision-language models are limited to single-modality inputs and are non-interactive. We present MARCUS (Multimodal Autonomous Reasoning and Chat for Ultrasound and Signals), an agentic vision-language system for end-to-end interpretation of electrocardiograms (ECGs), echocardiograms, and cardiac magnetic resonance imaging (CMR) independently and as multimodal input. MARCUS employs a hierarchical agentic architecture comprising modality-specific vision-language expert models, each integrating domain-trained visual encoders with multi-stage language model optimization, coordinated by a multimodal orchestrator. Trained on 13.5 million images (0.25M ECGs, 1.3M echocardiogram images, 12M CMR images) and our novel expert-curated dataset spanning 1.6 million questions, MARCUS achieves state-of-the-art performance surpassing frontier models (GPT-5 Thinking, Gemini 2.5 Pro Deep Think). Across internal (Stanford) and external (UCSF) test cohorts, MARCUS achieves accuracies of 87-91% for ECG, 67-86% for echocardiography, and 85-88% for CMR, outperforming frontier models by 34-45% (P<0.001). On multimodal cases, MARCUS achieved 70% accuracy, nearly triple that of frontier models (22-28%), with 1.7-3.0x higher free-text quality scores. Our agentic architecture also confers resistance to mirage reasoning, whereby vision-language models derive reasoning from unintended textual signals or hallucinated visual content. MARCUS demonstrates that domain-specific visual encoders with an agentic orchestrator enable multimodal cardiac interpretation. We release our models, code, and benchmark open-source.