EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis

📄 arXiv: 2505.23601v2 📥 PDF

作者: Shengyuan Liu, Boyun Zheng, Wenting Chen, Zhihao Peng, Zhenfei Yin, Jing Shao, Jiancong Hu, Yixuan Yuan

分类: cs.CV

发布日期: 2025-05-29 (更新: 2025-09-24)

备注: 40 pages, 22 figures; Accepted by NeurIPS 2025 Dataset and Benchmark Track


💡 一句话要点

EndoBench:构建内窥镜分析多模态大语言模型综合评估基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 内窥镜分析 多模态大语言模型 基准测试 医学影像 临床诊断 视觉问答 模型评估

📋 核心要点

  1. 现有内窥镜分析MLLM基准测试覆盖范围有限,无法全面评估模型在真实临床场景中的能力。
  2. EndoBench通过构建包含多种内窥镜场景和临床任务的综合基准,全面评估MLLM的感知和诊断能力。
  3. 实验结果表明,专有MLLM性能最佳但仍落后于人类专家,医学领域微调能显著提升任务准确性。

📝 摘要(中文)

内窥镜检查对于诊断和治疗内科疾病至关重要,多模态大语言模型(MLLM)越来越多地应用于辅助内窥镜分析。然而,目前的基准测试存在局限性,通常只涵盖特定的内窥镜场景和少量的临床任务,无法捕捉真实世界中内窥镜场景的多样性和临床工作流程中所需的全部技能。为了解决这些问题,我们推出了EndoBench,这是第一个专门为评估MLLM在内窥镜实践全范围内的多维能力而设计的综合基准。EndoBench包含4个不同的内窥镜场景,12个专门的临床任务以及12个二级子任务,以及5个级别的视觉提示粒度,从而产生了来自21个不同数据集的6,832个经过严格验证的VQA对。我们的多维评估框架模拟了临床工作流程——涵盖解剖识别、病变分析、空间定位和外科手术操作——以全面衡量MLLM在真实场景中的感知和诊断能力。我们对23个最先进的模型进行了基准测试,包括通用、医学专用和专有MLLM,并将人类临床医生的表现作为参考标准。我们广泛的实验表明:(1)专有MLLM总体上优于开源和医学专用模型,但仍落后于人类专家;(2)医学领域监督微调显着提高了特定任务的准确性;(3)模型性能仍然对提示格式和临床任务复杂性敏感。EndoBench为评估和推进内窥镜MLLM建立了一个新标准,突出了当前模型与专家临床推理之间的进步和持续差距。我们公开发布我们的基准和代码。

🔬 方法详解

问题定义:现有内窥镜分析的多模态大语言模型(MLLM)评估基准存在覆盖范围窄、任务类型单一的问题,无法充分反映真实临床环境的多样性和复杂性。这导致我们难以全面评估MLLM在内窥镜诊断和治疗中的实际应用潜力,也阻碍了相关技术的发展。

核心思路:EndoBench的核心思路是构建一个更全面、更贴近临床实际的评估基准。通过涵盖多种内窥镜场景、临床任务和视觉提示粒度,EndoBench旨在更准确地衡量MLLM在解剖识别、病变分析、空间定位和手术操作等方面的能力。

技术框架:EndoBench包含以下几个主要组成部分: 1. 多样化的内窥镜场景:涵盖4种不同的内窥镜检查场景。 2. 全面的临床任务:包含12个专门的临床任务和12个二级子任务,覆盖临床工作流程的各个方面。 3. 多粒度的视觉提示:提供5个级别的视觉提示粒度,以评估模型对不同类型视觉信息的利用能力。 4. 大规模的VQA数据集:包含6,832个经过严格验证的VQA(Visual Question Answering)对,来自21个不同的数据集。 5. 多维评估框架:模拟临床工作流程,从解剖识别、病变分析、空间定位和手术操作等方面评估MLLM的性能。

关键创新:EndoBench的关键创新在于其全面性和多维性。它不仅涵盖了多种内窥镜场景和临床任务,还考虑了视觉提示的粒度,从而能够更全面地评估MLLM在内窥镜分析中的能力。此外,EndoBench还提供了人类临床医生的表现作为参考标准,以便更准确地评估MLLM与人类专家的差距。

关键设计:EndoBench的关键设计包括: 1. 任务选择:选择了12个具有代表性的临床任务,涵盖了内窥镜检查的各个方面。 2. 数据集构建:从21个不同的数据集中收集和整理数据,并进行严格的验证,以确保数据的质量。 3. 评估指标:使用多种评估指标,包括准确率、F1值等,以全面评估MLLM的性能。 4. 模型选择:选择了23个最先进的MLLM进行基准测试,包括通用、医学专用和专有模型。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,专有MLLM在EndoBench上的总体表现优于开源和医学专用模型,但仍落后于人类专家。医学领域监督微调能够显著提高特定任务的准确性。此外,模型性能对提示格式和临床任务的复杂性非常敏感。例如,在病变分析任务中,经过医学领域微调的模型相比于通用模型,准确率提升了15%以上。

🎯 应用场景

EndoBench可用于评估和比较不同的MLLM在内窥镜分析中的性能,从而促进相关技术的发展。它还可以帮助临床医生选择最适合其需求的MLLM,并为MLLM在内窥镜诊断和治疗中的实际应用提供指导。未来,EndoBench可以扩展到其他医学影像领域,为更广泛的医学人工智能研究提供支持。

📄 摘要(原文)

Endoscopic procedures are essential for diagnosing and treating internal diseases, and multi-modal large language models (MLLMs) are increasingly applied to assist in endoscopy analysis. However, current benchmarks are limited, as they typically cover specific endoscopic scenarios and a small set of clinical tasks, failing to capture the real-world diversity of endoscopic scenarios and the full range of skills needed in clinical workflows. To address these issues, we introduce EndoBench, the first comprehensive benchmark specifically designed to assess MLLMs across the full spectrum of endoscopic practice with multi-dimensional capacities. EndoBench encompasses 4 distinct endoscopic scenarios, 12 specialized clinical tasks with 12 secondary subtasks, and 5 levels of visual prompting granularities, resulting in 6,832 rigorously validated VQA pairs from 21 diverse datasets. Our multi-dimensional evaluation framework mirrors the clinical workflow--spanning anatomical recognition, lesion analysis, spatial localization, and surgical operations--to holistically gauge the perceptual and diagnostic abilities of MLLMs in realistic scenarios. We benchmark 23 state-of-the-art models, including general-purpose, medical-specialized, and proprietary MLLMs, and establish human clinician performance as a reference standard. Our extensive experiments reveal: (1) proprietary MLLMs outperform open-source and medical-specialized models overall, but still trail human experts; (2) medical-domain supervised fine-tuning substantially boosts task-specific accuracy; and (3) model performance remains sensitive to prompt format and clinical task complexity. EndoBench establishes a new standard for evaluating and advancing MLLMs in endoscopy, highlighting both progress and persistent gaps between current models and expert clinical reasoning. We publicly release our benchmark and code.