MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models
作者: Boqi Chen, Xudong Liu, Jiachuan Peng, Marianne Frey-Marti, Bang Zheng, Kyle Lam, Lin Li, Jianing Qiu
分类: cs.CL
发布日期: 2026-02-25
💡 一句话要点
MEDSYN:多模态大语言模型在复杂临床病例中多证据综合的基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 医学诊断 大语言模型 基准测试 临床证据综合
📋 核心要点
- 现有医学多模态大语言模型基准测试未能充分捕捉真实临床病例的复杂性,限制了模型在实际应用中的潜力。
- MEDSYN基准测试通过引入包含多种临床证据类型的高度复杂病例,模拟真实临床工作流程,评估模型在诊断方面的能力。
- 实验结果表明,模型在鉴别诊断生成方面表现良好,但在最终诊断选择中存在缺陷,尤其是在整合不同模态证据时。
📝 摘要(中文)
多模态大语言模型(MLLM)在医疗应用中展现出巨大潜力,但现有基准测试未能充分捕捉真实临床的复杂性。我们推出了MEDSYN,一个多语言、多模态的基准测试,包含高度复杂的临床病例,每个病例最多包含7种不同的视觉临床证据(CE)类型。为了模拟临床工作流程,我们评估了18个MLLM在鉴别诊断(DDx)生成和最终诊断(FDx)选择方面的性能。虽然顶级模型在DDx生成方面通常能达到甚至超过人类专家的水平,但所有MLLM在DDx到FDx的性能差距都远大于专家临床医生,表明在异构CE类型综合方面存在缺陷。消融实验表明,这种缺陷归因于(i)过度依赖区分度较低的文本CE(例如,病史)和(ii)跨模态CE利用率差距。我们引入了证据敏感性来量化后者,并表明较小的差距与较高的诊断准确率相关。最后,我们展示了如何利用证据敏感性来指导干预,从而提高模型性能。我们将开源我们的基准测试和代码。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在复杂临床病例中进行多证据综合时表现不佳的问题。现有方法未能充分捕捉真实临床的复杂性,导致模型在整合异构临床证据(如文本病史、影像学报告等)时出现性能瓶颈,最终影响诊断准确率。现有基准测试也无法充分评估模型在这些复杂场景下的能力。
核心思路:论文的核心思路是构建一个更贴近真实临床场景的基准测试,即MEDSYN,该基准测试包含高度复杂的临床病例,每个病例包含多种不同类型的临床证据。通过在该基准测试上评估MLLM的性能,可以更准确地识别模型在多证据综合方面的缺陷,并为改进模型提供指导。此外,论文还提出了“证据敏感性”这一指标,用于量化模型对不同模态证据的利用程度。
技术框架:MEDSYN基准测试包含多语言、多模态的临床病例,每个病例最多包含7种不同的视觉临床证据类型。评估流程模拟临床工作流程,包括鉴别诊断(DDx)生成和最终诊断(FDx)选择两个阶段。论文使用18个MLLM进行评估,并通过消融实验分析模型性能瓶颈。同时,引入“证据敏感性”指标来量化模型对不同模态证据的利用程度,并分析其与诊断准确率之间的关系。
关键创新:MEDSYN基准测试的关键创新在于其高度的临床复杂性和多模态证据的丰富性,更贴近真实临床场景。此外,“证据敏感性”指标的提出,为量化模型对不同模态证据的利用程度提供了一种新的方法,有助于识别模型在多模态融合方面的缺陷。
关键设计:MEDSYN基准测试的数据集构建细节未知,论文重点在于基准测试的设计和评估指标的提出。证据敏感性的计算方法未知,但其核心思想是衡量模型对不同类型证据的依赖程度。消融实验的具体设置未知,但其目的是分析模型在不同证据类型上的性能差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,顶级MLLM在鉴别诊断生成方面可以达到甚至超过人类专家的水平,但在最终诊断选择方面仍存在较大差距。消融实验表明,模型过度依赖文本证据,且跨模态证据利用率存在差距。证据敏感性指标与诊断准确率呈正相关,可用于指导模型改进。
🎯 应用场景
该研究成果可应用于医疗诊断辅助系统,帮助医生更准确地进行诊断。通过MEDSYN基准测试,可以评估和改进MLLM在处理复杂临床病例方面的能力,提高诊断效率和准确性。未来,该研究有望推动人工智能在医疗领域的更广泛应用,例如远程医疗、个性化治疗等。
📄 摘要(原文)
Multimodal large language models (MLLMs) have shown great potential in medical applications, yet existing benchmarks inadequately capture real-world clinical complexity. We introduce MEDSYN, a multilingual, multimodal benchmark of highly complex clinical cases with up to 7 distinct visual clinical evidence (CE) types per case. Mirroring clinical workflow, we evaluate 18 MLLMs on differential diagnosis (DDx) generation and final diagnosis (FDx) selection. While top models often match or even outperform human experts on DDx generation, all MLLMs exhibit a much larger DDx--FDx performance gap compared to expert clinicians, indicating a failure mode in synthesis of heterogeneous CE types. Ablations attribute this failure to (i) overreliance on less discriminative textual CE ($\it{e.g.}$, medical history) and (ii) a cross-modal CE utilization gap. We introduce Evidence Sensitivity to quantify the latter and show that a smaller gap correlates with higher diagnostic accuracy. Finally, we demonstrate how it can be used to guide interventions to improve model performance. We will open-source our benchmark and code.