MARCUS: An agentic, multimodal vision-language model for cardiac diagnosis and management

作者: Jack W O'Sullivan, Mohammad Asadi, Lennart Elbe, Akshay Chaudhari, Tahoura Nedaee, Francois Haddad, Michael Salerno, Li Fe-Fei, Ehsan Adeli, Rima Arnaout, Euan A Ashley

分类: cs.AI

发布日期: 2026-03-23

💡 一句话要点

MARCUS：用于心脏诊断和管理的Agentic多模态视觉-语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 心脏诊断 医学影像 视觉-语言模型 Agentic架构

📋 核心要点

现有心血管疾病诊断依赖人工判读，耗时且易出错，AI模型缺乏多模态融合和交互能力。
MARCUS采用分层agentic架构，利用领域知识训练的视觉编码器和多阶段语言模型优化，实现多模态数据融合。
MARCUS在多种心脏影像诊断任务中超越现有SOTA模型，尤其在多模态诊断中提升显著，并开源模型代码。

📝 摘要（中文）

心血管疾病是全球死亡的主要原因，其进展受到复杂心脏测试的人工判读的阻碍。现有的AI视觉-语言模型仅限于单模态输入且缺乏交互性。我们提出了MARCUS（用于超声和信号的多模态自主推理和聊天），一个agentic视觉-语言系统，用于独立地以及作为多模态输入端到端地解释心电图（ECG）、超声心动图和心脏磁共振成像（CMR）。MARCUS采用分层agentic架构，包括特定模态的视觉-语言专家模型，每个模型都集成了领域训练的视觉编码器和多阶段语言模型优化，并由多模态协调器协调。MARCUS在1350万张图像（25万张ECG、130万张超声心动图图像、1200万张CMR图像）和我们新颖的专家策划的包含160万个问题的数据集上进行训练，实现了超越前沿模型（GPT-5 Thinking、Gemini 2.5 Pro Deep Think）的state-of-the-art性能。在内部（斯坦福）和外部（UCSF）测试队列中，MARCUS在ECG、超声心动图和CMR上的准确率分别达到87-91%、67-86%和85-88%，优于前沿模型34-45%（P<0.001）。在多模态案例中，MARCUS实现了70%的准确率，几乎是前沿模型（22-28%）的三倍，并且自由文本质量得分高出1.7-3.0倍。我们的agentic架构还具有抵抗幻觉推理的能力，即视觉-语言模型从意外的文本信号或虚构的视觉内容中得出推理。MARCUS证明了具有agentic协调器的领域特定视觉编码器能够实现多模态心脏解释。我们开源发布了我们的模型、代码和基准。

🔬 方法详解

问题定义：论文旨在解决心血管疾病诊断中，现有AI模型无法有效整合多种模态的心脏影像数据（如ECG、超声心动图、CMR）进行准确诊断的问题。现有方法通常是单模态的，或者在多模态融合方面表现不佳，容易受到幻觉信息的影响，导致诊断结果不准确。

核心思路：论文的核心思路是构建一个agentic的多模态视觉-语言模型MARCUS，该模型通过分层架构，将不同模态的视觉信息进行有效编码，并利用语言模型进行推理和诊断。Agentic架构的设计旨在提高模型的自主性和鲁棒性，减少对无关信息的依赖。

技术框架：MARCUS的整体架构包含以下几个主要模块：1) 模态特定的视觉-语言专家模型：针对ECG、超声心动图和CMR等不同模态，分别训练独立的视觉-语言模型，每个模型包含领域训练的视觉编码器和多阶段语言模型优化。2) 多模态协调器：负责协调不同模态的专家模型，将它们的信息进行融合，并做出最终的诊断决策。3) 数据集：使用包含1350万张图像和160万个问题的专家策划数据集进行训练。

关键创新：MARCUS的关键创新在于其agentic架构和领域特定的视觉编码器。Agentic架构使得模型能够自主地进行推理和决策，减少了对无关信息的依赖，提高了鲁棒性。领域特定的视觉编码器能够更好地提取心脏影像中的关键特征，提高了诊断的准确性。此外，多阶段语言模型优化也提升了模型的推理能力。

关键设计：论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。但可以推测，视觉编码器可能采用了在医学影像领域常用的卷积神经网络（CNN）或Transformer结构，语言模型可能采用了预训练的语言模型（如BERT或GPT）进行微调。损失函数可能包括交叉熵损失、对比损失等，用于优化模型的分类和表示能力。具体参数设置和网络结构未知。

🖼️ 关键图片

📊 实验亮点

MARCUS在内部（斯坦福）和外部（UCSF）测试队列中，ECG准确率达到87-91%，超声心动图准确率达到67-86%，CMR准确率达到85-88%，显著优于前沿模型（GPT-5 Thinking、Gemini 2.5 Pro Deep Think），提升幅度达34-45%（P<0.001）。在多模态案例中，MARCUS准确率达到70%，几乎是前沿模型（22-28%）的三倍，自由文本质量得分高出1.7-3.0倍。

🎯 应用场景

MARCUS具有广泛的应用前景，可用于辅助医生进行心血管疾病的诊断和管理，提高诊断效率和准确性。该模型可以应用于远程医疗、移动医疗等场景，为缺乏专业医疗资源的地区提供高质量的医疗服务。未来，MARCUS有望成为心脏科医生的智能助手，辅助临床决策，改善患者预后。

📄 摘要（原文）

Cardiovascular disease remains the leading cause of global mortality, with progress hindered by human interpretation of complex cardiac tests. Current AI vision-language models are limited to single-modality inputs and are non-interactive. We present MARCUS (Multimodal Autonomous Reasoning and Chat for Ultrasound and Signals), an agentic vision-language system for end-to-end interpretation of electrocardiograms (ECGs), echocardiograms, and cardiac magnetic resonance imaging (CMR) independently and as multimodal input. MARCUS employs a hierarchical agentic architecture comprising modality-specific vision-language expert models, each integrating domain-trained visual encoders with multi-stage language model optimization, coordinated by a multimodal orchestrator. Trained on 13.5 million images (0.25M ECGs, 1.3M echocardiogram images, 12M CMR images) and our novel expert-curated dataset spanning 1.6 million questions, MARCUS achieves state-of-the-art performance surpassing frontier models (GPT-5 Thinking, Gemini 2.5 Pro Deep Think). Across internal (Stanford) and external (UCSF) test cohorts, MARCUS achieves accuracies of 87-91% for ECG, 67-86% for echocardiography, and 85-88% for CMR, outperforming frontier models by 34-45% (P<0.001). On multimodal cases, MARCUS achieved 70% accuracy, nearly triple that of frontier models (22-28%), with 1.7-3.0x higher free-text quality scores. Our agentic architecture also confers resistance to mirage reasoning, whereby vision-language models derive reasoning from unintended textual signals or hallucinated visual content. MARCUS demonstrates that domain-specific visual encoders with an agentic orchestrator enable multimodal cardiac interpretation. We release our models, code, and benchmark open-source.

MARCUS: An agentic, multimodal vision-language model for cardiac diagnosis and management

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理