See in Depth: Training-Free Surgical Scene Segmentation with Monocular Depth Priors

作者: Kunyi Yang, Qingyu Wang, Cheng Yuan, Yutong Ban

分类: cs.CV, cs.AI

发布日期: 2025-12-05

备注: The first two authors contributed equally

💡 一句话要点

提出基于单目深度先验的无训练手术场景分割方法DepSeg

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 手术场景分割 单目深度估计 无训练学习 视觉基础模型 模板匹配

📋 核心要点

腹腔镜场景的像素级分割对于计算机辅助手术至关重要，但由于密集标注的高成本，难以扩展。
DepSeg利用单目深度估计作为几何先验，结合预训练视觉模型，实现无需训练的手术场景分割。
在CholecSeg8k数据集上，DepSeg显著优于直接使用SAM2的基线，并展示了在少量模板下的竞争力。

📝 摘要（中文）

本文提出了一种名为DepSeg的无训练手术场景分割框架，该框架利用单目深度作为几何先验，并结合预训练的视觉基础模型，用于腹腔镜场景的像素级分割。DepSeg首先使用预训练的单目深度估计网络估计相对深度图，并提出深度引导的点提示，然后利用SAM2将这些提示转换为类别无关的掩码。每个掩码通过池化的预训练视觉特征进行描述，并通过模板匹配与从标注帧构建的模板库进行分类。在CholecSeg8k数据集上，DepSeg优于直接使用SAM2自动分割的基线（35.9% vs. 14.7% mIoU），即使仅使用10-20%的对象模板，也能保持具有竞争力的性能。这些结果表明，深度引导的提示和基于模板的分类提供了一种注释高效的分割方法。

🔬 方法详解

问题定义：腹腔镜手术场景的像素级分割是计算机辅助手术的关键技术，但现有方法依赖于大量的像素级标注数据，标注成本高昂，限制了其可扩展性。如何降低对大量标注数据的依赖，实现高效的手术场景分割是一个挑战。

核心思路：本文的核心思路是利用单目深度估计作为几何先验，引导分割过程。深度信息可以提供场景的结构化信息，帮助区分不同的对象。结合预训练的视觉基础模型，可以提取图像的视觉特征，并利用模板匹配进行分类，从而减少对大量标注数据的需求。

技术框架：DepSeg框架主要包含以下几个阶段：1) 单目深度估计：使用预训练的单目深度估计网络估计相对深度图。2) 深度引导的提示生成：根据深度图生成点提示，引导SAM2生成类别无关的掩码。3) 特征提取：使用预训练的视觉模型提取每个掩码的视觉特征。4) 模板匹配分类：将提取的特征与从标注帧构建的模板库进行匹配，从而对掩码进行分类。

关键创新：DepSeg的关键创新在于将单目深度估计作为几何先验，引导分割过程。与传统的基于图像特征的分割方法相比，深度信息可以提供更强的几何约束，提高分割的准确性和鲁棒性。此外，DepSeg利用预训练的视觉模型和模板匹配，减少了对大量标注数据的依赖。

关键设计：在深度引导的提示生成阶段，论文设计了一种基于深度信息的点提示策略，选择具有代表性的深度值对应的像素点作为提示。在模板匹配阶段，论文使用了余弦相似度作为匹配度量，并设置了阈值来过滤不匹配的模板。具体使用的单目深度估计网络和视觉基础模型（SAM2）的选择也至关重要，需要根据具体应用场景进行调整。

🖼️ 关键图片

📊 实验亮点

DepSeg在CholecSeg8k数据集上取得了显著的性能提升，mIoU达到35.9%，远高于直接使用SAM2自动分割的基线（14.7%）。更重要的是，即使仅使用10-20%的对象模板，DepSeg也能保持具有竞争力的性能，这表明该方法具有很高的注释效率，能够有效降低对大量标注数据的需求。

🎯 应用场景

DepSeg具有广泛的应用前景，可用于计算机辅助手术、手术机器人导航、手术视频分析等领域。通过提供准确的手术场景分割结果，DepSeg可以帮助医生更好地理解手术过程，提高手术的安全性，并为手术机器人提供更可靠的环境感知能力。该研究有望推动计算机辅助手术技术的发展，并最终改善患者的治疗效果。

📄 摘要（原文）

Pixel-wise segmentation of laparoscopic scenes is essential for computer-assisted surgery but difficult to scale due to the high cost of dense annotations. We propose depth-guided surgical scene segmentation (DepSeg), a training-free framework that utilizes monocular depth as a geometric prior together with pretrained vision foundation models. DepSeg first estimates a relative depth map with a pretrained monocular depth estimation network and proposes depth-guided point prompts, which SAM2 converts into class-agnostic masks. Each mask is then described by a pooled pretrained visual feature and classified via template matching against a template bank built from annotated frames. On the CholecSeg8k dataset, DepSeg improves over a direct SAM2 auto segmentation baseline (35.9% vs. 14.7% mIoU) and maintains competitive performance even when using only 10--20% of the object templates. These results show that depth-guided prompting and template-based classification offer an annotation-efficient segmentation approach.

See in Depth: Training-Free Surgical Scene Segmentation with Monocular Depth Priors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理