MedRCube: A Multidimensional Framework for Fine-Grained and In-Depth Evaluation of MLLMs in Medical Imaging

作者: Zhijie Bao, Fangke Chen, Licheng Bao, Chenhui Zhang, Wei Chen, Jiajie Peng, Zhongyu Wei

分类: cs.CL, cs.CV

发布日期: 2026-04-15

🔗 代码/项目: GITHUB

💡 一句话要点

MedRCube：用于医学影像中多模态大语言模型细粒度和深度评估的多维框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 医学影像 评估框架 细粒度评估 推理可信度 基准测试 临床应用

📋 核心要点

现有医学影像MLLM评估缺乏细粒度，无法充分评估推理机制的可靠性，限制了其在专业临床支持中的应用。
提出MedRCube框架，通过多维度、细粒度的评估方法，更全面地评估MLLM在医学影像领域的性能。
实验表明，MedRCube能够揭示现有评估方法无法发现的MLLM的潜在问题，并量化推理可信度。

📝 摘要（中文）

多模态大语言模型(MLLM)在医学影像领域的潜力，对与真实医学影像实践相符的系统和严格的评估框架提出了需求。现有的报告单一或粗粒度指标的方法缺乏专业临床支持所需的粒度，并且未能评估推理机制的可靠性。为了解决这个问题，我们提出了一种向多维、细粒度和深度评估的范式转变。基于为此范式设计的两阶段系统构建流程，我们用MedRCube实例化了它。我们对33个MLLM进行了基准测试，其中Lingshu-32B取得了顶级的性能。重要的是，MedRCube揭示了一系列在先前的评估设置下无法获得的显著见解。此外，我们引入了一个可信度评估子集来量化推理可信度，发现了一种捷径行为与诊断任务性能之间的高度显著的正相关关系，这引起了对临床可信部署的担忧。这项工作的资源可以在https://github.com/F1mc/MedRCube找到。

🔬 方法详解

问题定义：现有医学影像多模态大语言模型（MLLM）的评估方法通常采用单一或粗粒度的指标，缺乏对模型推理过程的深入分析，难以满足专业临床支持的需求。此外，现有方法未能充分评估模型在医学影像诊断中的可靠性和可信度，可能导致临床误判等问题。

核心思路：MedRCube的核心思路是构建一个多维度、细粒度和深度评估框架，通过系统性的评估流程，全面评估MLLM在医学影像领域的性能。该框架旨在揭示模型在不同维度上的优势和不足，并量化模型的推理可信度，从而为临床应用提供更可靠的参考。

技术框架：MedRCube的构建包含两个主要阶段：1) 系统构建流程设计：设计一个两阶段的流程，用于构建多维度的评估数据集和评估指标。2) MedRCube实例化：基于设计的流程，构建具体的MedRCube评估框架，包括数据集、评估指标和评估方法。该框架包含多个维度，例如诊断准确性、报告生成质量、推理可信度等。

关键创新：MedRCube的关键创新在于其多维度、细粒度和深度的评估方法。与现有方法相比，MedRCube能够更全面地评估MLLM在医学影像领域的性能，并揭示模型在不同维度上的优势和不足。此外，MedRCube还引入了推理可信度评估，能够量化模型的可靠性，为临床应用提供更可靠的参考。

关键设计：MedRCube的关键设计包括：1) 多维度评估指标：设计多个维度的评估指标，例如诊断准确性、报告生成质量、推理可信度等，以全面评估MLLM的性能。2) 细粒度评估数据集：构建细粒度的评估数据集，包含不同类型的医学影像和对应的标注信息，以便更精确地评估模型的性能。3) 推理可信度评估方法：引入推理可信度评估方法，例如基于证据链的评估方法，以量化模型的可靠性。

🖼️ 关键图片

📊 实验亮点

通过对33个MLLM进行基准测试，MedRCube发现Lingshu-32B取得了顶级的性能。更重要的是，MedRCube揭示了一系列在先前的评估设置下无法获得的显著见解。研究还发现，捷径行为与诊断任务性能之间存在高度显著的正相关关系，这引起了对临床可信部署的担忧。

🎯 应用场景

MedRCube可应用于医学影像辅助诊断、医学报告生成、医学教育等领域。通过全面评估MLLM在医学影像领域的性能，可以为临床医生提供更可靠的辅助诊断工具，提高诊断效率和准确性。此外，MedRCube还可以用于评估不同MLLM的性能，为模型选择和优化提供参考。

📄 摘要（原文）

The potential of Multimodal Large Language Models (MLLMs) in domain of medical imaging raise the demands of systematic and rigorous evaluation frameworks that are aligned with the real-world medical imaging practice. Existing practices that report single or coarse-grained metrics are lack the granularity required for specialized clinical support and fail to assess the reliability of reasoning mechanisms. To address this, we propose a paradigm shift toward multidimensional, fine-grained and in-depth evaluation. Based on a two-stage systematic construction pipeline designed for this paradigm, we instantiate it with MedRCube. We benchmark 33 MLLMs, \textit{Lingshu-32B} achieve top-tier performance. Crucially, MedRCube exposes a series of pronounced insights inaccessible under prior evaluation settings. Furthermore, we introduce a credibility evaluation subset to quantify reasoning credibility, uncover a highly significant positive association between shortcut behavior and diagnostic task performance, raising concerns for clinically trustworthy deployment. The resources of this work can be found at https://github.com/F1mc/MedRCube.

MedRCube: A Multidimensional Framework for Fine-Grained and In-Depth Evaluation of MLLMs in Medical Imaging

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理