NeuroABench: A Multimodal Evaluation Benchmark for Neurosurgical Anatomy Identification

📄 arXiv: 2512.06921v1 📥 PDF

作者: Ziyang Song, Zelin Zang, Xiaofan Ye, Boqiang Xu, Long Bai, Jinlin Wu, Hongliang Ren, Hongbin Liu, Jiebo Luo, Zhen Lei

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-12-07

备注: Accepted by IEEE ICIA 2025


💡 一句话要点

NeuroABench:用于神经外科解剖结构识别的多模态评估基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经外科 解剖结构识别 多模态学习 大型语言模型 基准数据集

📋 核心要点

  1. 现有手术视频理解研究侧重于手术流程,忽略了解剖结构理解的重要性,限制了模型在临床实践中的应用。
  2. NeuroABench通过构建包含大量带注释神经外科视频的数据集,并提供标准化的评估框架,填补了这一空白。
  3. 实验表明,现有MLLM在解剖结构识别方面存在显著局限,性能远低于人类专家,揭示了未来研究方向。

📝 摘要(中文)

多模态大型语言模型(MLLM)在手术视频理解方面显示出巨大的潜力。凭借改进的零样本性能和更有效的人机交互,它们为推进外科教育和辅助提供了坚实的基础。然而,现有的研究和数据集主要集中于理解手术过程和工作流程,而对解剖理解的关键作用关注有限。在临床实践中,外科医生严重依赖精确的解剖理解来解释、回顾和学习手术视频。为了填补这一空白,我们推出了神经外科解剖基准(NeuroABench),这是第一个专门为评估神经外科领域解剖理解而创建的多模态基准。NeuroABench包含9小时的带注释的神经外科视频,涵盖89种不同的手术,并使用一种新颖的多模态注释管道和多个审查周期进行开发。该基准评估了68个临床解剖结构的识别,为评估模型性能提供了一个严格和标准化的框架。对超过10个最先进的MLLM的实验表明存在显著的局限性,性能最佳的模型在解剖识别任务中仅达到40.87%的准确率。为了进一步评估该基准,我们提取了数据集的一个子集,并对四名神经外科实习生进行了信息测试。结果表明,表现最好的学生达到了56%的准确率,最低分数为28%,平均分数为46.5%。虽然最好的MLLM的表现与得分最低的学生相当,但仍然大大落后于该组的平均表现。这种比较突出了MLLM在解剖理解方面的进展,以及在实现人类水平性能方面仍然存在的巨大差距。

🔬 方法详解

问题定义:现有手术视频理解研究主要关注手术步骤和流程的识别,而忽略了对关键解剖结构的理解。外科医生在术中需要精确识别各种解剖结构,以便进行安全有效的手术操作。现有方法缺乏对解剖结构理解的评估和优化,限制了其在临床教育和手术辅助方面的应用潜力。

核心思路:NeuroABench的核心思路是构建一个专门用于评估神经外科解剖结构识别能力的多模态基准数据集。通过提供高质量的视频数据和精确的解剖结构标注,为MLLM提供一个标准化的评估平台,从而促进相关算法的开发和改进。

技术框架:NeuroABench的构建流程包括以下几个主要阶段:1) 数据收集:收集了9小时的神经外科手术视频,涵盖89种不同的手术。2) 解剖结构标注:由专业人员对视频中的68种临床解剖结构进行标注,采用多模态标注管道和多轮审查机制,保证标注质量。3) 基准评估:使用标注好的数据对现有的MLLM进行评估,并提供标准化的评估指标。4) 人工评估:邀请神经外科实习生进行测试,将模型性能与人类专家进行对比。

关键创新:NeuroABench的主要创新在于:1) 它是第一个专门针对神经外科解剖结构识别的多模态基准数据集。2) 它采用了新颖的多模态标注管道和多轮审查机制,保证了标注的准确性和可靠性。3) 它提供了标准化的评估框架和指标,方便研究人员进行模型比较和分析。

关键设计:NeuroABench的关键设计包括:1) 选择了68种临床上重要的解剖结构进行标注。2) 采用了多模态标注方式,同时标注了视频帧和文本描述。3) 设计了多种评估指标,包括准确率、召回率和F1值等。4) 进行了人工评估,将模型性能与人类专家进行对比。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有最先进的MLLM在NeuroABench上的解剖结构识别准确率仅为40.87%,远低于神经外科实习生的平均水平(46.5%)。即使是表现最好的实习生,其准确率也仅为56%。这表明MLLM在解剖结构理解方面仍有很大的提升空间,NeuroABench可以作为评估和改进相关算法的重要工具。

🎯 应用场景

NeuroABench可用于训练和评估用于手术导航、术中辅助和外科教育的多模态人工智能系统。通过提高模型对解剖结构的理解能力,可以帮助外科医生更准确地定位目标区域,减少手术风险,并为外科新手提供更有效的学习工具。该基准的发布将促进神经外科人工智能技术的进步,并最终改善患者的治疗效果。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have shown significant potential in surgical video understanding. With improved zero-shot performance and more effective human-machine interaction, they provide a strong foundation for advancing surgical education and assistance. However, existing research and datasets primarily focus on understanding surgical procedures and workflows, while paying limited attention to the critical role of anatomical comprehension. In clinical practice, surgeons rely heavily on precise anatomical understanding to interpret, review, and learn from surgical videos. To fill this gap, we introduce the Neurosurgical Anatomy Benchmark (NeuroABench), the first multimodal benchmark explicitly created to evaluate anatomical understanding in the neurosurgical domain. NeuroABench consists of 9 hours of annotated neurosurgical videos covering 89 distinct procedures and is developed using a novel multimodal annotation pipeline with multiple review cycles. The benchmark evaluates the identification of 68 clinical anatomical structures, providing a rigorous and standardized framework for assessing model performance. Experiments on over 10 state-of-the-art MLLMs reveal significant limitations, with the best-performing model achieving only 40.87% accuracy in anatomical identification tasks. To further evaluate the benchmark, we extract a subset of the dataset and conduct an informative test with four neurosurgical trainees. The results show that the best-performing student achieves 56% accuracy, with the lowest scores of 28% and an average score of 46.5%. While the best MLLM performs comparably to the lowest-scoring student, it still lags significantly behind the group's average performance. This comparison underscores both the progress of MLLMs in anatomical understanding and the substantial gap that remains in achieving human-level performance.