MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems
作者: Yunhang Qian, Xiaobin Hu, Jiaquan Yu, Siyang Xin, Xiaokun Chen, Jiangning Zhang, Peng-Tao Jiang, Jiawei Liu, Hongwei Bran Li
分类: cs.AI
发布日期: 2026-03-10
🔗 代码/项目: GITHUB
💡 一句话要点
MedMASLab:用于多模态医学多智能体系统基准测试的统一编排框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 医学图像分析 临床决策支持 多模态融合 基准测试 视觉语言模型 零样本学习
📋 核心要点
- 现有医学多智能体系统缺乏统一架构和多模态集成,导致数据处理和评估标准不一致。
- MedMASLab提出统一框架,包含标准化通信协议和自动临床推理评估器,促进多模态医学智能体系统集成。
- 实验表明,现有架构在跨专业医学领域转换时存在脆弱性,为未来自主临床系统提供技术基线。
📝 摘要(中文)
多智能体系统(MAS)在复杂临床决策支持方面显示出潜力,但该领域仍受到架构碎片化和缺乏标准化多模态集成的阻碍。当前的医学MAS研究存在数据摄取流程不统一、视觉推理评估不一致以及缺乏跨专业基准测试等问题。为了应对这些挑战,我们提出了MedMASLab,一个用于多模态医学多智能体系统的统一框架和基准测试平台。MedMASLab引入了:(1)标准化的多模态智能体通信协议,能够无缝集成跨越24种医学模态的11种异构MAS架构。(2)自动临床推理评估器,一种零样本语义评估范式,通过利用大型视觉-语言模型来验证诊断逻辑和视觉基础,克服了词汇字符串匹配的局限性。(3)迄今为止最广泛的基准测试,涵盖11个器官系统和473种疾病,标准化了来自11个临床基准的数据。我们的系统评估揭示了一个关键的领域特定性能差距:虽然MAS提高了推理深度,但当前的架构在专业医学子领域之间转换时表现出显著的脆弱性。我们对交互机制和成本-性能权衡进行了严格的消融研究,为未来的自主临床系统建立了新的技术基线。源代码和数据可在https://github.com/NUS-Project/MedMASLab/公开获取。
🔬 方法详解
问题定义:现有医学多智能体系统(MAS)研究面临架构碎片化、数据摄取流程不统一、视觉推理评估不一致以及缺乏跨专业基准测试等问题。这些问题阻碍了MAS在复杂临床决策支持中的应用,现有方法难以实现不同模态数据和不同专业领域知识的有效集成和评估。
核心思路:MedMASLab的核心思路是提供一个统一的框架,通过标准化的通信协议和自动化的评估工具,促进多模态医学MAS的集成、评估和比较。该框架旨在解决现有方法在数据处理、知识表示和性能评估方面的局限性,从而推动医学MAS领域的发展。
技术框架:MedMASLab框架主要包含三个核心组件:(1) 标准化的多模态智能体通信协议,用于实现不同MAS架构之间的无缝集成;(2) 自动临床推理评估器,利用大型视觉-语言模型进行零样本语义评估,验证诊断逻辑和视觉基础;(3) 包含11个器官系统和473种疾病的广泛基准测试数据集,用于标准化评估不同MAS架构的性能。
关键创新:MedMASLab的关键创新在于其统一的框架设计和自动化的评估方法。标准化的通信协议解决了架构碎片化的问题,使得不同MAS架构可以方便地进行集成和交互。自动临床推理评估器克服了传统词汇匹配的局限性,能够更准确地评估MAS的推理能力和视觉基础。
关键设计:MedMASLab的关键设计包括:(1) 多模态智能体通信协议的具体规范,定义了智能体之间消息传递的格式和内容;(2) 自动临床推理评估器的实现细节,包括所使用的大型视觉-语言模型、评估指标和评估流程;(3) 基准测试数据集的构建方法,包括数据来源、预处理步骤和数据划分策略。
🖼️ 关键图片
📊 实验亮点
MedMASLab在包含11个器官系统和473种疾病的广泛基准测试中进行了评估。实验结果表明,虽然MAS能够提高推理深度,但在跨专业医学子领域转换时表现出显著的脆弱性。该研究还对交互机制和成本-性能权衡进行了严格的消融研究,为未来的自主临床系统建立了新的技术基线。
🎯 应用场景
MedMASLab可应用于辅助临床诊断、治疗方案制定、医学教育培训等领域。通过集成多模态数据和专家知识,该框架能够为医生提供更全面、准确的决策支持,提高诊断效率和治疗效果。此外,MedMASLab还可用于评估和比较不同医学AI模型的性能,推动医学人工智能技术的发展。
📄 摘要(原文)
While Multi-Agent Systems (MAS) show potential for complex clinical decision support, the field remains hindered by architectural fragmentation and the lack of standardized multimodal integration. Current medical MAS research suffers from non-uniform data ingestion pipelines, inconsistent visual-reasoning evaluation, and a lack of cross-specialty benchmarking. To address these challenges, we present MedMASLab, a unified framework and benchmarking platform for multimodal medical multi-agent systems. MedMASLab introduces: (1) A standardized multimodal agent communication protocol that enables seamless integration of 11 heterogeneous MAS architectures across 24 medical modalities. (2) An automated clinical reasoning evaluator, a zero-shot semantic evaluation paradigm that overcomes the limitations of lexical string-matching by leveraging large vision-language models to verify diagnostic logic and visual grounding. (3) The most extensive benchmark to date, spanning 11 organ systems and 473 diseases, standardizing data from 11 clinical benchmarks. Our systematic evaluation reveals a critical domain-specific performance gap: while MAS improves reasoning depth, current architectures exhibit significant fragility when transitioning between specialized medical sub-domains. We provide a rigorous ablation of interaction mechanisms and cost-performance trade-offs, establishing a new technical baseline for future autonomous clinical systems. The source code and data is publicly available at: https://github.com/NUS-Project/MedMASLab/