MedRCube: A Multidimensional Framework for Fine-Grained and In-Depth Evaluation of MLLMs in Medical Imaging

📄 arXiv: 2604.13756v1 📥 PDF

作者: Zhijie Bao, Fangke Chen, Licheng Bao, Chenhui Zhang, Wei Chen, Jiajie Peng, Zhongyu Wei

分类: cs.CL, cs.CV

发布日期: 2026-04-15

🔗 代码/项目: GITHUB


💡 一句话要点

MedRCube:用于医学影像中多模态大语言模型细粒度和深度评估的多维框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 医学影像 评估框架 细粒度评估 推理可信度 基准测试 临床应用

📋 核心要点

  1. 现有医学影像MLLM评估缺乏细粒度,无法充分评估推理机制的可靠性,限制了其在专业临床支持中的应用。
  2. 提出MedRCube框架,通过多维度、细粒度的评估方法,更全面地评估MLLM在医学影像领域的性能。
  3. 实验表明,MedRCube能够揭示现有评估方法无法发现的MLLM的潜在问题,并量化推理可信度。

📝 摘要(中文)

多模态大语言模型(MLLM)在医学影像领域的潜力,对与真实医学影像实践相符的系统和严格的评估框架提出了需求。现有的报告单一或粗粒度指标的方法缺乏专业临床支持所需的粒度,并且未能评估推理机制的可靠性。为了解决这个问题,我们提出了一种向多维、细粒度和深度评估的范式转变。基于为此范式设计的两阶段系统构建流程,我们用MedRCube实例化了它。我们对33个MLLM进行了基准测试,其中Lingshu-32B取得了顶级的性能。重要的是,MedRCube揭示了一系列在先前的评估设置下无法获得的显著见解。此外,我们引入了一个可信度评估子集来量化推理可信度,发现了一种捷径行为与诊断任务性能之间的高度显著的正相关关系,这引起了对临床可信部署的担忧。这项工作的资源可以在https://github.com/F1mc/MedRCube找到。

🔬 方法详解

问题定义:现有医学影像多模态大语言模型(MLLM)的评估方法通常采用单一或粗粒度的指标,缺乏对模型推理过程的深入分析,难以满足专业临床支持的需求。此外,现有方法未能充分评估模型在医学影像诊断中的可靠性和可信度,可能导致临床误判等问题。

核心思路:MedRCube的核心思路是构建一个多维度、细粒度和深度评估框架,通过系统性的评估流程,全面评估MLLM在医学影像领域的性能。该框架旨在揭示模型在不同维度上的优势和不足,并量化模型的推理可信度,从而为临床应用提供更可靠的参考。

技术框架:MedRCube的构建包含两个主要阶段:1) 系统构建流程设计:设计一个两阶段的流程,用于构建多维度的评估数据集和评估指标。2) MedRCube实例化:基于设计的流程,构建具体的MedRCube评估框架,包括数据集、评估指标和评估方法。该框架包含多个维度,例如诊断准确性、报告生成质量、推理可信度等。

关键创新:MedRCube的关键创新在于其多维度、细粒度和深度的评估方法。与现有方法相比,MedRCube能够更全面地评估MLLM在医学影像领域的性能,并揭示模型在不同维度上的优势和不足。此外,MedRCube还引入了推理可信度评估,能够量化模型的可靠性,为临床应用提供更可靠的参考。

关键设计:MedRCube的关键设计包括:1) 多维度评估指标:设计多个维度的评估指标,例如诊断准确性、报告生成质量、推理可信度等,以全面评估MLLM的性能。2) 细粒度评估数据集:构建细粒度的评估数据集,包含不同类型的医学影像和对应的标注信息,以便更精确地评估模型的性能。3) 推理可信度评估方法:引入推理可信度评估方法,例如基于证据链的评估方法,以量化模型的可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过对33个MLLM进行基准测试,MedRCube发现Lingshu-32B取得了顶级的性能。更重要的是,MedRCube揭示了一系列在先前的评估设置下无法获得的显著见解。研究还发现,捷径行为与诊断任务性能之间存在高度显著的正相关关系,这引起了对临床可信部署的担忧。

🎯 应用场景

MedRCube可应用于医学影像辅助诊断、医学报告生成、医学教育等领域。通过全面评估MLLM在医学影像领域的性能,可以为临床医生提供更可靠的辅助诊断工具,提高诊断效率和准确性。此外,MedRCube还可以用于评估不同MLLM的性能,为模型选择和优化提供参考。

📄 摘要(原文)

The potential of Multimodal Large Language Models (MLLMs) in domain of medical imaging raise the demands of systematic and rigorous evaluation frameworks that are aligned with the real-world medical imaging practice. Existing practices that report single or coarse-grained metrics are lack the granularity required for specialized clinical support and fail to assess the reliability of reasoning mechanisms. To address this, we propose a paradigm shift toward multidimensional, fine-grained and in-depth evaluation. Based on a two-stage systematic construction pipeline designed for this paradigm, we instantiate it with MedRCube. We benchmark 33 MLLMs, \textit{Lingshu-32B} achieve top-tier performance. Crucially, MedRCube exposes a series of pronounced insights inaccessible under prior evaluation settings. Furthermore, we introduce a credibility evaluation subset to quantify reasoning credibility, uncover a highly significant positive association between shortcut behavior and diagnostic task performance, raising concerns for clinically trustworthy deployment. The resources of this work can be found at https://github.com/F1mc/MedRCube.