See in Depth: Training-Free Surgical Scene Segmentation with Monocular Depth Priors
作者: Kunyi Yang, Qingyu Wang, Cheng Yuan, Yutong Ban
分类: cs.CV, cs.AI
发布日期: 2025-12-05
备注: The first two authors contributed equally
💡 一句话要点
提出基于单目深度先验的无训练手术场景分割方法DepSeg
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 手术场景分割 单目深度估计 无训练学习 视觉基础模型 模板匹配 计算机辅助手术 腹腔镜手术
📋 核心要点
- 现有腹腔镜手术场景分割方法依赖大量标注数据,成本高昂且难以扩展。
- DepSeg利用单目深度估计作为几何先验,结合预训练视觉模型,实现无训练的场景分割。
- 实验表明,DepSeg在分割精度上显著优于直接使用SAM2的方法,且对模板数量不敏感。
📝 摘要(中文)
腹腔镜场景的像素级分割对于计算机辅助手术至关重要,但由于密集标注的高成本而难以扩展。我们提出了一种深度引导的手术场景分割框架(DepSeg),该框架利用单目深度作为几何先验,并结合预训练的视觉基础模型,无需训练。DepSeg首先使用预训练的单目深度估计网络估计相对深度图,并提出深度引导的点提示,SAM2将其转换为类别无关的掩码。然后,每个掩码由一个池化的预训练视觉特征描述,并通过模板匹配针对从带注释的帧构建的模板库进行分类。在CholecSeg8k数据集上,DepSeg优于直接的SAM2自动分割基线(35.9% vs. 14.7% mIoU),即使仅使用10-20%的对象模板也能保持有竞争力的性能。这些结果表明,深度引导的提示和基于模板的分类提供了一种注释高效的分割方法。
🔬 方法详解
问题定义:论文旨在解决腹腔镜手术场景中,由于缺乏大量标注数据而导致的像素级分割难题。现有方法依赖于大量的像素级标注,这在医疗领域非常耗时且成本高昂,限制了其可扩展性。因此,需要一种无需训练或仅需少量标注数据就能实现精确分割的方法。
核心思路:论文的核心思路是利用单目深度估计作为几何先验信息,引导分割过程。通过预训练的单目深度估计网络获取场景的深度信息,并将其转化为点提示,从而引导SAM2生成类别无关的掩码。然后,利用模板匹配的方式,将这些掩码与少量标注样本进行匹配,实现最终的分割。这种方法的核心在于利用深度信息减少对大量标注数据的依赖。
技术框架:DepSeg框架主要包含以下几个阶段:1) 单目深度估计:使用预训练的单目深度估计网络估计输入图像的相对深度图。2) 深度引导的点提示:根据深度图生成点提示,用于引导SAM2生成类别无关的掩码。3) 掩码生成:使用SAM2将点提示转换为类别无关的掩码。4) 特征提取:对每个掩码区域提取预训练视觉模型的特征。5) 模板匹配:将提取的特征与从少量标注样本构建的模板库进行匹配,从而确定掩码的类别。
关键创新:该方法最重要的创新点在于将单目深度估计与预训练视觉模型相结合,实现了一种无需训练或仅需少量标注数据的腹腔镜手术场景分割方法。与传统的监督学习方法相比,该方法显著降低了对标注数据的需求,提高了可扩展性。与直接使用SAM2等通用分割模型相比,该方法利用深度信息作为先验,提高了分割精度。
关键设计:在深度引导的点提示方面,论文根据深度图的分布选择具有代表性的点作为提示。在特征提取方面,论文使用预训练视觉模型的池化特征来描述掩码区域,以提高特征的鲁棒性。在模板匹配方面,论文使用余弦相似度作为匹配度量,并设置阈值来过滤不匹配的掩码。
📊 实验亮点
DepSeg在CholecSeg8k数据集上取得了显著的性能提升,mIoU达到35.9%,远高于直接使用SAM2的14.7%。更重要的是,即使仅使用10-20%的对象模板,DepSeg也能保持有竞争力的性能,这表明该方法具有很高的标注效率和泛化能力。
🎯 应用场景
该研究成果可应用于计算机辅助手术系统,例如机器人辅助手术。通过实时分割手术场景,可以帮助医生更好地理解手术过程,提高手术精度和安全性。此外,该方法还可以应用于医学图像分析、手术机器人导航等领域,具有广阔的应用前景。
📄 摘要(原文)
Pixel-wise segmentation of laparoscopic scenes is essential for computer-assisted surgery but difficult to scale due to the high cost of dense annotations. We propose depth-guided surgical scene segmentation (DepSeg), a training-free framework that utilizes monocular depth as a geometric prior together with pretrained vision foundation models. DepSeg first estimates a relative depth map with a pretrained monocular depth estimation network and proposes depth-guided point prompts, which SAM2 converts into class-agnostic masks. Each mask is then described by a pooled pretrained visual feature and classified via template matching against a template bank built from annotated frames. On the CholecSeg8k dataset, DepSeg improves over a direct SAM2 auto segmentation baseline (35.9% vs. 14.7% mIoU) and maintains competitive performance even when using only 10--20% of the object templates. These results show that depth-guided prompting and template-based classification offer an annotation-efficient segmentation approach.