GI-Bench: A Panoramic Benchmark Revealing the Knowledge-Experience Dissociation of Multimodal Large Language Models in Gastrointestinal Endoscopy Against Clinical Standards

📄 arXiv: 2601.08183v1 📥 PDF

作者: Yan Zhu, Te Luo, Pei-Yao Fu, Zhen Zhang, Zi-Long Wang, Yi-Fan Qu, Zi-Han Geng, Jia-Qi Xu, Lu Yao, Li-Yun Ma, Wei Su, Wei-Feng Chen, Quan-Lin Li, Shuo Wang, Ping-Hong Zhou

分类: cs.CV, cs.AI

发布日期: 2026-01-13

备注: 45 pages, 17 figures, 6 tables. Leaderboard available at: https://roterdl.github.io/GIBench/ . Includes supplementary material

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

GI-Bench:揭示多模态大语言模型在胃肠内窥镜临床应用中知识与经验脱节的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 胃肠内窥镜 临床基准 辅助诊断 空间定位 诊断推理 医疗人工智能

📋 核心要点

  1. 现有MLLM在胃肠内窥镜领域的临床应用潜力未充分验证,缺乏针对临床工作流程的系统评估。
  2. 构建GI-Bench基准,包含20种细粒度病灶类别,覆盖解剖定位、病灶识别、诊断等五阶段临床流程。
  3. 实验表明,MLLM在诊断推理上可与初级医师媲美,但在空间定位和事实准确性上仍存在明显差距。

📝 摘要(中文)

多模态大语言模型(MLLMs)在胃肠病学中展现出潜力,但其在全面临床工作流程和人类基准下的性能仍未得到验证。为了系统地评估最先进的MLLMs在全景胃肠内窥镜工作流程中的表现,并确定其与人类内窥镜医师相比的临床效用,我们构建了GI-Bench,一个包含20个细粒度病灶类别的基准。在五个阶段的临床工作流程中评估了12个MLLMs:解剖定位、病灶识别、诊断、发现描述和管理。模型性能与三名初级内窥镜医师和三名住院医师进行了比较,使用了Macro-F1、平均交并比(mIoU)和多维Likert量表。Gemini-3-Pro取得了最先进的性能。在诊断推理方面,顶级模型(Macro-F1 0.641)优于住院医师(0.492),并与初级内窥镜医师(0.727; p>0.05)相当。然而,一个关键的“空间定位瓶颈”仍然存在;人类病灶定位(mIoU >0.506)显著优于最佳模型(0.345; p<0.05)。此外,定性分析揭示了一个“流畅性-准确性悖论”:与人类相比,模型生成的报告具有更高的语言可读性(p<0.05),但由于对视觉特征的“过度解读”和幻觉,事实正确性显著降低(p<0.05)。GI-Bench维护了一个动态排行榜,跟踪MLLMs在临床内窥镜检查中不断发展的性能。当前的排名和基准测试结果可在https://roterdl.github.io/GIBench/上找到。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)在胃肠内窥镜临床应用中,缺乏系统性、标准化的评估基准的问题。现有方法难以全面评估MLLMs在真实临床工作流程中的表现,特别是其知识与经验的结合能力,以及与人类医生相比的优劣势。现有评估方法无法充分揭示MLLMs在空间定位、诊断推理和报告生成等方面的局限性。

核心思路:论文的核心思路是构建一个全面的、细粒度的胃肠内窥镜基准(GI-Bench),该基准覆盖了临床内窥镜检查的完整工作流程,并包含多种病灶类别。通过将MLLMs与人类医生(初级内窥镜医师和住院医师)在同一基准上进行比较,从而系统地评估MLLMs的性能,并揭示其在知识和经验方面的不足。

技术框架:GI-Bench基准测试包含五个主要阶段,模拟了临床内窥镜检查的完整流程:1. 解剖定位:确定内窥镜图像中的解剖结构。2. 病灶识别:检测并识别图像中的病灶。3. 诊断:根据图像信息做出诊断。4. 发现描述:生成对图像发现的描述性报告。5. 管理:提出后续治疗或管理建议。论文使用Macro-F1、平均交并比(mIoU)和多维Likert量表等指标来评估模型在各个阶段的性能。

关键创新:该论文的关键创新在于构建了一个全面且细粒度的GI-Bench基准,该基准不仅覆盖了临床内窥镜检查的完整流程,还包含了多种病灶类别。此外,论文通过将MLLMs与人类医生进行比较,揭示了MLLMs在空间定位和事实准确性方面的局限性,提出了“空间定位瓶颈”和“流畅性-准确性悖论”等重要发现。与现有方法相比,GI-Bench能够更全面、更深入地评估MLLMs在胃肠内窥镜临床应用中的性能。

关键设计:GI-Bench基准包含20个细粒度病灶类别,涵盖了常见的胃肠道疾病。在评估过程中,论文使用了Macro-F1来评估诊断准确性,使用mIoU来评估空间定位的准确性,并使用多维Likert量表来评估报告的质量。论文还进行了定性分析,以深入了解MLLMs的优势和劣势。此外,论文还维护了一个动态排行榜,用于跟踪MLLMs在临床内窥镜检查中不断发展的性能。

📊 实验亮点

实验结果表明,Gemini-3-Pro在GI-Bench基准上取得了最先进的性能。在诊断推理方面,顶级模型(Macro-F1 0.641)优于住院医师(0.492),并与初级内窥镜医师(0.727; p>0.05)相当。然而,在空间定位方面,人类病灶定位(mIoU >0.506)显著优于最佳模型(0.345; p<0.05)。定性分析揭示了模型在报告生成中存在“流畅性-准确性悖论”。

🎯 应用场景

该研究成果可应用于开发辅助诊断系统,帮助医生提高诊断效率和准确性,尤其是在内窥镜检查中。通过GI-Bench基准,可以持续评估和改进MLLMs在胃肠病学领域的应用,推动人工智能在医疗领域的进步。未来,该研究有望扩展到其他医学影像领域,构建更广泛的临床应用基准。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) show promise in gastroenterology, yet their performance against comprehensive clinical workflows and human benchmarks remains unverified. To systematically evaluate state-of-the-art MLLMs across a panoramic gastrointestinal endoscopy workflow and determine their clinical utility compared with human endoscopists. We constructed GI-Bench, a benchmark encompassing 20 fine-grained lesion categories. Twelve MLLMs were evaluated across a five-stage clinical workflow: anatomical localization, lesion identification, diagnosis, findings description, and management. Model performance was benchmarked against three junior endoscopists and three residency trainees using Macro-F1, mean Intersection-over-Union (mIoU), and multi-dimensional Likert scale. Gemini-3-Pro achieved state-of-the-art performance. In diagnostic reasoning, top-tier models (Macro-F1 0.641) outperformed trainees (0.492) and rivaled junior endoscopists (0.727; p>0.05). However, a critical "spatial grounding bottleneck" persisted; human lesion localization (mIoU >0.506) significantly outperformed the best model (0.345; p<0.05). Furthermore, qualitative analysis revealed a "fluency-accuracy paradox": models generated reports with superior linguistic readability compared with humans (p<0.05) but exhibited significantly lower factual correctness (p<0.05) due to "over-interpretation" and hallucination of visual features.GI-Bench maintains a dynamic leaderboard that tracks the evolving performance of MLLMs in clinical endoscopy. The current rankings and benchmark results are available at https://roterdl.github.io/GIBench/.