More than Segmentation: Benchmarking SAM 3 for Segmentation, 3D Perception, and Reconstruction in Robotic Surgery
作者: Wenzhen Dong, Jieming Yu, Yiming Huang, Hongqiu Wang, Lei Zhu, Albert C. S. Chung, Hongliang Ren, Long Bai
分类: cs.CV, cs.RO
发布日期: 2025-12-08 (更新: 2025-12-10)
备注: Technical Report
💡 一句话要点
评估SAM 3在机器人手术中的分割、3D感知与重建能力
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 机器人手术 图像分割 3D重建 零样本学习 SAM 3 SAM 3D 深度估计
📋 核心要点
- 现有手术图像分割方法泛化性不足,难以适应不同手术场景和器械变化。
- 利用SAM 3的零样本分割能力,探索其在机器人手术场景下的分割、跟踪和3D重建性能。
- 实验表明SAM 3在空间提示下分割性能提升,SAM 3D在单目深度估计和器械重建上表现良好。
📝 摘要(中文)
本文评估了SAM 3在机器人辅助手术中的性能,重点关注其零样本分割能力(基于点和边界框提示)以及动态视频跟踪效果。同时,研究还探索了SAM 3新引入的基于语言提示的分割能力,发现其在手术领域表现尚不理想,需要进一步的领域特定训练。此外,本文还研究了SAM 3D的深度重建能力,验证了其从2D图像重建手术场景3D解剖结构的能力。在MICCAI EndoVis 2017和2018基准测试中,SAM 3在空间提示下的图像和视频分割方面优于SAM和SAM 2。SAM 3D在SCARED、StereoMIS和EndoNeRF上的零样本评估表明其具有较强的单目深度估计和逼真的3D器械重建能力,但在复杂、高度动态的手术场景中仍存在局限性。
🔬 方法详解
问题定义:机器人手术场景下的图像分割、3D感知和重建任务面临着诸多挑战,包括器械的遮挡、光照变化、组织形变以及缺乏标注数据等问题。现有的分割方法通常需要大量的标注数据进行训练,泛化能力较差,难以适应不同手术场景和器械的变化。因此,如何利用少量甚至零标注数据实现鲁棒的分割和3D重建是亟待解决的问题。
核心思路:本文的核心思路是利用SAM 3和SAM 3D的零样本分割和3D重建能力,探索其在机器人手术场景下的应用潜力。SAM 3具有强大的泛化能力,可以通过点、边界框和语言提示进行分割,无需针对特定手术场景进行训练。SAM 3D则可以从2D图像中重建3D结构,为手术导航和规划提供支持。
技术框架:本文的评估框架主要包括以下几个部分:1) 使用点和边界框提示评估SAM 3的零样本分割性能;2) 评估SAM 3在动态视频跟踪中的表现;3) 探索SAM 3基于语言提示的分割能力;4) 评估SAM 3D的深度重建能力,包括单目深度估计和3D器械重建。评估过程中使用了MICCAI EndoVis 2017和2018、SCARED、StereoMIS和EndoNeRF等数据集。
关键创新:本文的关键创新在于将SAM 3和SAM 3D应用于机器人手术场景,并对其性能进行了全面的评估。与传统的分割方法相比,SAM 3具有更强的泛化能力,可以减少对标注数据的依赖。SAM 3D则可以从单目图像中重建3D结构,为手术导航和规划提供新的可能性。
关键设计:在实验中,使用了默认的SAM 3和SAM 3D模型参数,没有进行额外的训练或微调。对于SAM 3的分割任务,使用了点和边界框作为提示,并评估了不同提示方式下的分割性能。对于SAM 3D的深度重建任务,使用了单目图像作为输入,并评估了重建的3D结构的准确性和完整性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SAM 3在空间提示下的图像和视频分割方面优于SAM和SAM 2。SAM 3D在SCARED、StereoMIS和EndoNeRF数据集上的零样本评估表明其具有较强的单目深度估计和逼真的3D器械重建能力。尽管在复杂、高度动态的手术场景中仍存在局限性,但SAM 3和SAM 3D在机器人手术领域展现出巨大的应用潜力。
🎯 应用场景
该研究成果可应用于机器人辅助手术的多个方面,例如术中导航、器械跟踪、组织分割和3D重建。通过SAM 3的零样本分割能力,医生可以快速准确地分割手术区域,提高手术效率和精度。SAM 3D的3D重建能力可以为医生提供更全面的手术场景信息,辅助手术规划和决策。此外,该研究还可以促进手术机器人的智能化发展,实现更自主的手术操作。
📄 摘要(原文)
The recent SAM 3 and SAM 3D have introduced significant advancements over the predecessor, SAM 2, particularly with the integration of language-based segmentation and enhanced 3D perception capabilities. SAM 3 supports zero-shot segmentation across a wide range of prompts, including point, bounding box, and language-based prompts, allowing for more flexible and intuitive interactions with the model. In this empirical evaluation, we assess the performance of SAM 3 in robot-assisted surgery, benchmarking its zero-shot segmentation with point and bounding box prompts and exploring its effectiveness in dynamic video tracking, alongside its newly introduced language prompt segmentation. While language prompts show potential, their performance in the surgical domain is currently suboptimal, highlighting the need for further domain-specific training. Additionally, we investigate SAM 3D's depth reconstruction abilities, demonstrating its capacity to process surgical scene data and reconstruct 3D anatomical structures from 2D images. Through comprehensive testing on the MICCAI EndoVis 2017 and EndoVis 2018 benchmarks, SAM 3 shows clear improvements over SAM and SAM 2 in both image and video segmentation under spatial prompts, while the zero-shot evaluations of SAM 3D on SCARED, StereoMIS, and EndoNeRF indicate strong monocular depth estimation and realistic 3D instrument reconstruction, yet also reveal remaining limitations in complex, highly dynamic surgical scenes.