Towards Unified Surgical Scene Understanding:Bridging Reasoning and Grounding via MLLMs

📄 arXiv: 2605.13530v1 📥 PDF

作者: Jincai Huang, Shihao Zou, Yuchen Guo, Jingjing Li, Wei Ji, Kai Wang, Shanshan Wang, Weixin Si

分类: cs.CV, cs.AI

发布日期: 2026-05-13


💡 一句话要点

提出SurgMLLM,通过多模态大语言模型统一手术场景理解中的推理与分割。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手术场景理解 多模态大语言模型 视觉定位 语义推理 端到端训练 计算机辅助手术 医疗影像分析

📋 核心要点

  1. 现有手术场景理解方法通常孤立地处理程序上下文、语义推理和视觉定位,导致表示分散和语义一致性有限。
  2. SurgMLLM通过微调多模态大语言模型,统一建模手术阶段、仪器-动词-目标三元组和分割tokens,实现高层推理和低层视觉定位的桥接。
  3. 实验表明,SurgMLLM在三元组识别、阶段识别和分割任务上均优于现有方法,显著提升了手术场景理解的性能。

📝 摘要(中文)

手术场景理解是计算机辅助干预的基石。尽管手术图像分割取得了进展,但实际临床应用需要更全面的理解,包括程序上下文、语义推理和精确的视觉定位。现有方法通常孤立地处理这些组件,导致表示分散和语义一致性有限。为了解决这个问题,我们提出了SurgMLLM,一个统一的手术场景理解框架,它在单个模型中桥接了高层推理和低层视觉定位。给定手术视频,SurgMLLM微调多模态大语言模型(MLLM)以支持结构化的可解释推理,用于联合建模阶段、仪器-动词-目标(IVT)三元组和三元组-实体分割tokens。这些tokens被时间聚合,并作为分割网络的提示,从而实现三元组仪器和目标的精确像素级定位。整个框架通过统一的目标进行端到端训练,该目标将基于语言的推理监督与视觉定位损失相结合,从而促进连贯的跨任务学习和临床一致的场景表示。为了方便统一评估,我们引入了CholecT45-Scene,通过64,299帧的仪器和目标像素级掩码注释扩展了CholecT45数据集,与现有的三元组标签对齐。大量实验表明,SurgMLLM显著提高了手术场景理解,将主要的三元组识别指标AP_IVT从40.7%提高到46.0%,并在阶段识别和分割方面始终优于现有方法。这些结果突出了统一推理和定位对于可靠的、上下文感知的手术辅助的有效性。

🔬 方法详解

问题定义:论文旨在解决手术场景理解中,现有方法无法有效整合程序上下文、语义推理和精确视觉定位的问题。现有方法通常将这些任务孤立处理,导致信息碎片化,难以实现临床上所需的全面、一致的场景理解。

核心思路:论文的核心思路是利用多模态大语言模型(MLLM)的强大能力,将高层次的语义推理(如手术阶段识别、IVT三元组识别)与低层次的视觉定位(如仪器和目标的像素级分割)统一到一个框架中。通过共享的语言表示空间,实现跨任务的信息交互和知识迁移,从而提升整体的场景理解能力。

技术框架:SurgMLLM框架主要包含以下几个阶段:1) MLLM微调:使用手术视频数据微调MLLM,使其能够理解手术场景中的语言描述和视觉信息。2) 结构化推理:利用微调后的MLLM进行结构化推理,联合预测手术阶段、IVT三元组和分割tokens。3) 时间聚合:对推理得到的tokens进行时间聚合,以增强鲁棒性和上下文信息。4) 分割网络:将聚合后的tokens作为提示输入分割网络,实现仪器和目标的像素级分割。5) 端到端训练:整个框架通过统一的损失函数进行端到端训练,该损失函数结合了语言推理监督和视觉定位损失。

关键创新:SurgMLLM的关键创新在于它将MLLM引入手术场景理解,并设计了一种统一的推理和定位框架。与现有方法相比,SurgMLLM能够更好地利用语言的语义信息来指导视觉任务,实现更准确、更一致的场景表示。此外,端到端训练的方式也促进了跨任务的知识共享和协同优化。

关键设计:在MLLM微调阶段,使用了手术视频数据进行指令微调,使模型能够理解手术相关的指令和问题。在分割网络中,使用了Transformer结构来处理tokens,并将其与视觉特征进行融合。损失函数包括交叉熵损失(用于阶段识别和IVT三元组识别)和Dice损失(用于分割)。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SurgMLLM在CholecT45-Scene数据集上取得了显著的性能提升。在三元组识别任务中,AP_IVT指标从40.7%提高到46.0%,超越了现有方法。同时,SurgMLLM在阶段识别和分割任务上也取得了优异的结果,证明了其统一推理和定位框架的有效性。新提出的CholecT45-Scene数据集也为该领域的研究提供了新的基准。

🎯 应用场景

SurgMLLM的研究成果可应用于计算机辅助手术、手术机器人导航、术后分析和医生培训等领域。通过提供更全面、准确的手术场景理解,SurgMLLM能够帮助医生做出更明智的决策,提高手术效率和安全性,并为手术机器人的自主操作提供支持。未来,该技术有望进一步推广到其他医疗影像分析任务中。

📄 摘要(原文)

Surgical scene understanding is a cornerstone of computer-assisted intervention. While recent advances, particularly in surgical image segmentation, have driven progress, real-world clinical applications require a more holistic understanding that jointly captures procedural context, semantic reasoning, and precise visual grounding. However, existing approaches typically address these components in isolation, leading to fragmented representations and limited semantic consistency. To address this limitation, we propose SurgMLLM, a unified surgical scene understanding framework that bridges high-level reasoning and low-level visual grounding within a single model. Given surgical videos, SurgMLLM fine-tunes a multimodal large language model (MLLM) to support structured interpretability reasoning, which is used to jointly model phases, instrument-verb-target (IVT) triplets, and triplet-entity segmentation tokens. These tokens are then temporally aggregated and serve as prompts for a segmentation network, enabling accurate pixel-wise grounding of triplet instruments and targets. The entire framework is trained end-to-end with a unified objective that couples language-based reasoning supervision with visual grounding losses, promoting coherent cross-task learning and clinically consistent scene representations. To facilitate unified evaluation, we introduce CholecT45-Scene, extending CholecT45 dataset with 64,299 frames of pixel-level mask annotations for instruments and targets, aligned with existing triplet labels. Extensive experiments show that SurgMLLM significantly advances surgical scene understanding, improving the primary triplet recognition metric AP_IVT from 40.7% to 46.0% and consistently outperforming prior methods in phase recognition and segmentation. These results highlight the effectiveness of unified reasoning-and-grounding for reliable, context-aware surgical assistance.