GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI

作者: Pengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao

分类: eess.IV, cs.CV

发布日期: 2024-08-06 (更新: 2024-10-21)

备注: GitHub: https://github.com/uni-medical/GMAI-MMBench Hugging face: https://huggingface.co/datasets/OpenGVLab/GMAI-MMBench

💡 一句话要点

GMAI-MMBench：构建综合性多模态医学评估基准，推动通用医学AI发展

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学AI 多模态学习 视觉语言模型 评估基准 医学影像

📋 核心要点

现有医学LVLM基准数据集集中于单一领域，缺乏临床相关性和多粒度评估，限制了模型发展。
GMAI-MMBench构建了包含多模态医学图像、临床任务和科室的综合性基准，并支持自定义评估。
实验结果表明，即使是GPT-4o在GMAI-MMBench上的准确率也仅为53.96%，表明医学LVLM仍有提升空间。

📝 摘要（中文）

大型视觉-语言模型（LVLMs）能够处理图像、文本和生理信号等多种数据类型，并在各个领域得到应用。在医学领域，LVLMs具有为诊断和治疗提供实质性帮助的巨大潜力。为此，开发基准来评估LVLMs在各种医学应用中的有效性至关重要。当前的基准通常建立在特定的学术文献之上，主要集中于单一领域，并且缺乏不同的感知粒度。因此，它们面临着特定的挑战，包括临床相关性有限、评估不完整以及对交互式LVLMs的指导不足。为了解决这些局限性，我们开发了GMAI-MMBench，这是迄今为止最全面的通用医学AI基准，具有良好分类的数据结构和多感知粒度。它由来自38种医学图像模态、18项临床相关任务、18个科室和4种感知粒度的284个数据集构建而成，采用视觉问答（VQA）格式。此外，我们还实现了一个词汇树结构，允许用户自定义评估任务，以适应各种评估需求，并为医学AI研究和应用提供实质性支持。我们评估了50个LVLMs，结果表明，即使是先进的GPT-4o的准确率也只有53.96%，表明仍有很大的改进空间。此外，我们还发现了当前最先进的LVLMs的五个关键不足，需要加以解决，以推进更好的医学应用的发展。我们相信，GMAI-MMBench将激励社区构建下一代面向GMAI的LVLMs。

🔬 方法详解

问题定义：现有医学领域的大型视觉语言模型（LVLMs）评估基准存在临床相关性不足、评估范围狭窄（主要集中在单一领域）以及缺乏多粒度感知能力的问题。这导致无法全面评估LVLMs在实际医疗场景中的性能，也难以指导交互式LVLMs的开发。

核心思路：为了解决现有基准的局限性，GMAI-MMBench的核心思路是构建一个全面、多样的医学AI评估基准，覆盖多种医学图像模态、临床任务、科室和感知粒度。通过提供更丰富、更贴近实际临床场景的数据，更准确地评估LVLMs的性能，并为未来的医学AI研究提供更有效的指导。

技术框架：GMAI-MMBench的整体框架包括以下几个主要组成部分：1) 数据集构建：收集整理来自284个数据集的数据，涵盖38种医学图像模态、18项临床相关任务和18个科室。2) 数据结构化：对数据进行分类和组织，形成结构化的数据格式，方便模型进行学习和推理。3) 感知粒度划分：将数据划分为4种感知粒度，以评估模型在不同层面的理解能力。4) 视觉问答（VQA）格式：将数据转换为VQA格式，方便模型进行问答交互。5) 词汇树结构：实现一个词汇树结构，允许用户自定义评估任务，满足不同的评估需求。

关键创新：GMAI-MMBench的关键创新在于其全面性和多粒度性。它不仅覆盖了广泛的医学领域和任务，还考虑了不同层面的感知粒度，从而能够更全面、更准确地评估LVLMs的性能。此外，词汇树结构的设计也为用户提供了更大的灵活性，可以根据自己的需求自定义评估任务。

关键设计：GMAI-MMBench的关键设计包括：1) 数据集的选择：精心挑选了来自不同医学领域的284个数据集，确保数据的多样性和代表性。2) 感知粒度的划分：将感知粒度划分为不同的层次，例如图像级别的诊断、区域级别的定位等，以评估模型在不同层面的理解能力。3) VQA格式的设计：设计了清晰明确的VQA格式，方便模型进行问答交互。4) 词汇树结构的实现：采用高效的词汇树结构，方便用户自定义评估任务。

🖼️ 关键图片

📊 实验亮点

对50个LVLMs的评估结果显示，即使是先进的GPT-4o在GMAI-MMBench上的准确率也仅为53.96%，表明当前LVLMs在医学领域的性能仍有很大的提升空间。此外，研究还识别了当前LVLMs在医学应用中的五个关键不足，为未来的研究方向提供了重要的指导。

🎯 应用场景

GMAI-MMBench可应用于医学影像诊断、辅助治疗决策、医学教育培训等多个领域。通过该基准，研究人员可以更有效地评估和改进医学LVLMs，从而开发出更智能、更可靠的医学AI系统，最终提升医疗服务的质量和效率，例如辅助医生进行更准确的诊断，为患者提供个性化的治疗方案。

📄 摘要（原文）

Large Vision-Language Models (LVLMs) are capable of handling diverse data types such as imaging, text, and physiological signals, and can be applied in various fields. In the medical field, LVLMs have a high potential to offer substantial assistance for diagnosis and treatment. Before that, it is crucial to develop benchmarks to evaluate LVLMs' effectiveness in various medical applications. Current benchmarks are often built upon specific academic literature, mainly focusing on a single domain, and lacking varying perceptual granularities. Thus, they face specific challenges, including limited clinical relevance, incomplete evaluations, and insufficient guidance for interactive LVLMs. To address these limitations, we developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data structure and multi-perceptual granularity to date. It is constructed from 284 datasets across 38 medical image modalities, 18 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. Additionally, we implemented a lexical tree structure that allows users to customize evaluation tasks, accommodating various assessment needs and substantially supporting medical AI research and applications. We evaluated 50 LVLMs, and the results show that even the advanced GPT-4o only achieves an accuracy of 53.96%, indicating significant room for improvement. Moreover, we identified five key insufficiencies in current cutting-edge LVLMs that need to be addressed to advance the development of better medical applications. We believe that GMAI-MMBench will stimulate the community to build the next generation of LVLMs toward GMAI.

GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理