EyePCR: A Comprehensive Benchmark for Fine-Grained Perception, Knowledge Comprehension and Clinical Reasoning in Ophthalmic Surgery

📄 arXiv: 2509.15596v2 📥 PDF

作者: Gui Wang, Yang Wennuo, Xusen Ma, Zehao Zhong, Zhuoru Wu, Ende Wu, Rong Qu, Wooi Ping Cheah, Jianfeng Ren, Linlin Shen

分类: cs.CV

发布日期: 2025-09-19 (更新: 2025-10-02)

备注: Strong accept by NeurIPS2025 Reviewers and AC


💡 一句话要点

EyePCR:眼科手术中细粒度感知、知识理解和临床推理的综合基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼科手术 多模态学习 大型语言模型 临床推理 知识图谱 视频理解 基准数据集

📋 核心要点

  1. 现有MLLM在眼科手术等高风险领域表现不足,缺乏针对性评估。
  2. EyePCR构建大规模眼科手术基准,包含感知、理解和推理三个认知维度。
  3. EyePCR-MLLM在感知方面表现最佳,理解和推理能力与商业模型接近。

📝 摘要(中文)

多模态大型语言模型(MLLMs)已经展示了卓越的能力,但在高风险、特定领域的场景(如手术环境)中的性能仍未被充分探索。为了解决这一差距,我们开发了EyePCR,这是一个大规模的眼科手术分析基准,基于结构化的临床知识来评估跨感知(Perception)、理解(Comprehension)和推理(Reasoning)的认知能力。EyePCR提供了一个丰富注释的语料库,包含超过21万个VQAs,涵盖1048个用于多视角感知的细粒度属性,超过2.5万个三元组的医学知识图谱用于理解,以及四个临床基础的推理任务。丰富的注释有助于深入的认知分析,模拟外科医生如何感知视觉线索并将它们与领域知识相结合以做出决策,从而大大提高模型的认知能力。特别是,EyePCR-MLLM,Qwen2.5-VL-7B的领域自适应变体,在感知(Perception)的MCQs上实现了最高的准确率,并在理解(Comprehension)和推理(Reasoning)方面优于开源模型,与GPT-4.1等商业模型相媲美。EyePCR揭示了现有MLLM在手术认知方面的局限性,并为基准测试和提高手术视频理解模型的临床可靠性奠定了基础。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLMs)在眼科手术等高风险、领域特定场景中表现不足的问题。现有方法缺乏针对手术环境的细粒度认知能力评估,无法有效模拟外科医生的感知、理解和推理过程。现有基准数据集规模有限,缺乏结构化的临床知识,难以支持深入的认知分析。

核心思路:论文的核心思路是构建一个大规模、高质量的眼科手术基准数据集EyePCR,该数据集包含丰富的标注信息,涵盖感知、理解和推理三个认知维度。通过在该基准上评估MLLMs的性能,可以揭示其在手术认知方面的局限性,并为提高手术视频理解模型的临床可靠性提供指导。

技术框架:EyePCR基准数据集包含以下几个主要组成部分:1) 超过21万个VQAs,涵盖1048个用于多视角感知的细粒度属性;2) 超过2.5万个三元组的医学知识图谱,用于理解;3) 四个临床基础的推理任务。此外,论文还提出了一个领域自适应的MLLM模型EyePCR-MLLM,该模型基于Qwen2.5-VL-7B进行微调,以提高其在眼科手术领域的性能。

关键创新:EyePCR的主要创新点在于:1) 构建了一个大规模、高质量的眼科手术基准数据集,该数据集包含丰富的标注信息,涵盖感知、理解和推理三个认知维度;2) 提出了一个领域自适应的MLLM模型EyePCR-MLLM,该模型在眼科手术领域取得了显著的性能提升。与现有方法相比,EyePCR更加关注手术环境的细粒度认知能力评估,并提供了更加全面的标注信息。

关键设计:EyePCR数据集的标注过程采用了多阶段的方法,首先由专业的眼科医生进行标注,然后由其他专家进行审核,以确保标注的准确性和一致性。EyePCR-MLLM模型的微调过程采用了领域自适应的方法,利用眼科手术领域的知识来调整模型的参数,以提高其在该领域的性能。具体的技术细节包括:使用了特定的损失函数来优化模型的性能,并采用了特定的数据增强方法来提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EyePCR-MLLM在感知(Perception)的MCQs上实现了最高的准确率,并在理解(Comprehension)和推理(Reasoning)方面优于开源模型,与GPT-4.1等商业模型相媲美。这表明领域自适应的MLLM模型在眼科手术领域具有巨大的潜力,可以为外科医生提供有力的支持。

🎯 应用场景

该研究成果可应用于开发智能手术辅助系统,帮助外科医生进行术前规划、术中导航和术后评估。通过提高手术视频理解模型的临床可靠性,可以减少手术失误,提高手术成功率,改善患者的治疗效果。此外,该研究还可以促进医学人工智能领域的发展,为其他医疗领域的应用提供借鉴。

📄 摘要(原文)

MLLMs (Multimodal Large Language Models) have showcased remarkable capabilities, but their performance in high-stakes, domain-specific scenarios like surgical settings, remains largely under-explored. To address this gap, we develop \textbf{EyePCR}, a large-scale benchmark for ophthalmic surgery analysis, grounded in structured clinical knowledge to evaluate cognition across \textit{Perception}, \textit{Comprehension} and \textit{Reasoning}. EyePCR offers a richly annotated corpus with more than 210k VQAs, which cover 1048 fine-grained attributes for multi-view perception, medical knowledge graph of more than 25k triplets for comprehension, and four clinically grounded reasoning tasks. The rich annotations facilitate in-depth cognitive analysis, simulating how surgeons perceive visual cues and combine them with domain knowledge to make decisions, thus greatly improving models' cognitive ability. In particular, \textbf{EyePCR-MLLM}, a domain-adapted variant of Qwen2.5-VL-7B, achieves the highest accuracy on MCQs for \textit{Perception} among compared models and outperforms open-source models in \textit{Comprehension} and \textit{Reasoning}, rivalling commercial models like GPT-4.1. EyePCR reveals the limitations of existing MLLMs in surgical cognition and lays the foundation for benchmarking and enhancing clinical reliability of surgical video understanding models.