See in Depth: Training-Free Surgical Scene Segmentation with Monocular Depth Priors
作者: Kunyi Yang, Qingyu Wang, Cheng Yuan, Yutong Ban
分类: cs.CV, cs.AI
发布日期: 2025-12-05
备注: The first two authors contributed equally
💡 一句话要点
提出基于单目深度先验的无训练手术场景分割方法DepSeg
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 手术场景分割 单目深度估计 无训练学习 视觉基础模型 模板匹配
📋 核心要点
- 腹腔镜场景的像素级分割对于计算机辅助手术至关重要,但由于密集标注的高成本,难以扩展。
- DepSeg利用单目深度估计作为几何先验,结合预训练视觉模型,实现无需训练的手术场景分割。
- 在CholecSeg8k数据集上,DepSeg显著优于直接使用SAM2的基线,并展示了在少量模板下的竞争力。
📝 摘要(中文)
本文提出了一种名为DepSeg的无训练手术场景分割框架,该框架利用单目深度作为几何先验,并结合预训练的视觉基础模型,用于腹腔镜场景的像素级分割。DepSeg首先使用预训练的单目深度估计网络估计相对深度图,并提出深度引导的点提示,然后利用SAM2将这些提示转换为类别无关的掩码。每个掩码通过池化的预训练视觉特征进行描述,并通过模板匹配与从标注帧构建的模板库进行分类。在CholecSeg8k数据集上,DepSeg优于直接使用SAM2自动分割的基线(35.9% vs. 14.7% mIoU),即使仅使用10-20%的对象模板,也能保持具有竞争力的性能。这些结果表明,深度引导的提示和基于模板的分类提供了一种注释高效的分割方法。
🔬 方法详解
问题定义:腹腔镜手术场景的像素级分割是计算机辅助手术的关键技术,但现有方法依赖于大量的像素级标注数据,标注成本高昂,限制了其可扩展性。如何降低对大量标注数据的依赖,实现高效的手术场景分割是一个挑战。
核心思路:本文的核心思路是利用单目深度估计作为几何先验,引导分割过程。深度信息可以提供场景的结构化信息,帮助区分不同的对象。结合预训练的视觉基础模型,可以提取图像的视觉特征,并利用模板匹配进行分类,从而减少对大量标注数据的需求。
技术框架:DepSeg框架主要包含以下几个阶段:1) 单目深度估计:使用预训练的单目深度估计网络估计相对深度图。2) 深度引导的提示生成:根据深度图生成点提示,引导SAM2生成类别无关的掩码。3) 特征提取:使用预训练的视觉模型提取每个掩码的视觉特征。4) 模板匹配分类:将提取的特征与从标注帧构建的模板库进行匹配,从而对掩码进行分类。
关键创新:DepSeg的关键创新在于将单目深度估计作为几何先验,引导分割过程。与传统的基于图像特征的分割方法相比,深度信息可以提供更强的几何约束,提高分割的准确性和鲁棒性。此外,DepSeg利用预训练的视觉模型和模板匹配,减少了对大量标注数据的依赖。
关键设计:在深度引导的提示生成阶段,论文设计了一种基于深度信息的点提示策略,选择具有代表性的深度值对应的像素点作为提示。在模板匹配阶段,论文使用了余弦相似度作为匹配度量,并设置了阈值来过滤不匹配的模板。具体使用的单目深度估计网络和视觉基础模型(SAM2)的选择也至关重要,需要根据具体应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
DepSeg在CholecSeg8k数据集上取得了显著的性能提升,mIoU达到35.9%,远高于直接使用SAM2自动分割的基线(14.7%)。更重要的是,即使仅使用10-20%的对象模板,DepSeg也能保持具有竞争力的性能,这表明该方法具有很高的注释效率,能够有效降低对大量标注数据的需求。
🎯 应用场景
DepSeg具有广泛的应用前景,可用于计算机辅助手术、手术机器人导航、手术视频分析等领域。通过提供准确的手术场景分割结果,DepSeg可以帮助医生更好地理解手术过程,提高手术的安全性,并为手术机器人提供更可靠的环境感知能力。该研究有望推动计算机辅助手术技术的发展,并最终改善患者的治疗效果。
📄 摘要(原文)
Pixel-wise segmentation of laparoscopic scenes is essential for computer-assisted surgery but difficult to scale due to the high cost of dense annotations. We propose depth-guided surgical scene segmentation (DepSeg), a training-free framework that utilizes monocular depth as a geometric prior together with pretrained vision foundation models. DepSeg first estimates a relative depth map with a pretrained monocular depth estimation network and proposes depth-guided point prompts, which SAM2 converts into class-agnostic masks. Each mask is then described by a pooled pretrained visual feature and classified via template matching against a template bank built from annotated frames. On the CholecSeg8k dataset, DepSeg improves over a direct SAM2 auto segmentation baseline (35.9% vs. 14.7% mIoU) and maintains competitive performance even when using only 10--20% of the object templates. These results show that depth-guided prompting and template-based classification offer an annotation-efficient segmentation approach.