Training-free Detection and 6D Pose Estimation of Unseen Surgical Instruments
作者: Jonas Hein, Lilian Calvet, Matthias Seibold, Siyu Tang, Marc Pollefeys, Philipp Fürnstahl
分类: cs.CV
发布日期: 2026-03-26
备注: Accepted at IJCARS: IPCAI 2026
DOI: 10.1007/s11548-026-03598-z
💡 一句话要点
提出一种无需训练的 surgical instrument 6D位姿估计方法,适用于未知器械。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: 6D位姿估计 手术器械检测 无需训练 多视图几何 轮廓配准
📋 核心要点
- 现有监督方法在面对新的或未见过的手术器械时缺乏灵活性,并且需要大量的标注数据。
- 该方法提出了一种无需训练的流程,仅需纹理化的CAD模型即可实现未知手术器械的精确6D位姿估计。
- 在真实手术数据上的评估表明,该方法在精度上与监督方法相当,同时保持了对未知器械的泛化能力。
📝 摘要(中文)
本文提出了一种无需训练的流程,用于精确估计未知手术器械的多视角6D位姿,仅需纹理化的CAD模型作为先验知识。该流程包含两个主要阶段:首先,在每个视图中生成对象掩码提议,并使用预训练的特征提取器评估其与渲染模板的相似性。跨视图匹配检测结果,三角化为3D实例候选,并使用多视图几何一致性进行过滤。其次,对于位姿估计,使用具有交叉视图注意力的特征度量分数迭代地细化和评估一组位姿假设。最佳假设通过一种新的多视图、感知遮挡的轮廓配准进行最终细化,该配准最小化未遮挡轮廓点的重投影误差。在MVPSP数据集的真实手术数据上进行了严格评估,结果表明,该方法在受控条件下实现了与监督方法相当的毫米级精度的位姿估计,同时保持了对未知器械的完全泛化能力。这证明了在手术场景中进行无需训练、无标记检测和跟踪的可行性,并突出了手术环境中的独特挑战。本文提出的方法有效地结合了最先进的基础模型、多视图几何和基于轮廓的细化,无需特定任务的训练即可实现高精度手术器械6D位姿估计。这种方法能够在动态临床环境中实现鲁棒的器械跟踪和场景理解。
🔬 方法详解
问题定义:论文旨在解决手术器械的6D位姿估计问题,尤其是在面对未见过的器械时,现有依赖大量标注数据的监督学习方法难以泛化。因此,需要一种无需训练,仅依赖CAD模型的方法来实现精确的位姿估计。
核心思路:核心思路是利用预训练的特征提取器和多视图几何约束,结合轮廓配准进行位姿优化。通过预训练模型提取图像特征,结合CAD模型渲染的模板进行匹配,利用多视图几何信息进行过滤,最后通过轮廓配准提高位姿精度。
技术框架:该方法包含两个主要阶段:1. 检测阶段:在每个视图中生成器械掩码提议,并使用预训练特征提取器计算与渲染模板的相似度。然后,跨视图匹配检测结果,三角化为3D实例候选,并使用多视图几何一致性进行过滤。2. 位姿估计阶段:迭代地细化和评估一组位姿假设,使用具有交叉视图注意力的特征度量分数。最佳假设通过多视图、感知遮挡的轮廓配准进行最终细化。
关键创新:该方法最重要的创新点在于无需训练,仅依赖CAD模型即可实现对未知手术器械的精确6D位姿估计。此外,多视图几何一致性过滤和感知遮挡的轮廓配准也提高了位姿估计的鲁棒性和精度。
关键设计:在检测阶段,使用了预训练的特征提取器(具体模型未知)来提取图像特征。在位姿估计阶段,使用了交叉视图注意力机制来提高特征匹配的准确性。轮廓配准使用了最小化重投影误差的损失函数,并考虑了遮挡情况,以提高配准精度。具体的参数设置和网络结构在论文中可能包含更详细的信息(未知)。
🖼️ 关键图片
📊 实验亮点
该方法在MVPSP数据集上进行了评估,结果表明,在受控条件下,该方法实现了与监督方法相当的毫米级精度的位姿估计,同时保持了对未知器械的完全泛化能力。这证明了无需训练的方法在手术场景中进行器械检测和跟踪的可行性。
🎯 应用场景
该研究成果可应用于计算机辅助手术、机器人手术等领域,实现手术器械的自动检测、跟踪和位姿估计,从而提高手术的精确性和安全性。该方法无需针对特定器械进行训练,具有很强的通用性和实用价值,有望推动手术机器人的智能化发展。
📄 摘要(原文)
Purpose: Accurate detection and 6D pose estimation of surgical instruments are crucial for many computer-assisted interventions. However, supervised methods lack flexibility for new or unseen tools and require extensive annotated data. This work introduces a training-free pipeline for accurate multi-view 6D pose estimation of unseen surgical instruments, which only requires a textured CAD model as prior knowledge. Methods: Our pipeline consists of two main stages. First, for detection, we generate object mask proposals in each view and score their similarity to rendered templates using a pre-trained feature extractor. Detections are matched across views, triangulated into 3D instance candidates, and filtered using multi-view geometric consistency. Second, for pose estimation, a set of pose hypotheses is iteratively refined and scored using feature-metric scores with cross-view attention. The best hypothesis undergoes a final refinement using a novel multi-view, occlusion-aware contour registration, which minimizes reprojection errors of unoccluded contour points. Results: The proposed method was rigorously evaluated on real-world surgical data from the MVPSP dataset. The method achieves millimeter-accurate pose estimates that are on par with supervised methods under controlled conditions, while maintaining full generalization to unseen instruments. These results demonstrate the feasibility of training-free, marker-less detection and tracking in surgical scenes, and highlight the unique challenges in surgical environments. Conclusion: We present a novel and flexible pipeline that effectively combines state-of-the-art foundational models, multi-view geometry, and contour-based refinement for high-accuracy 6D pose estimation of surgical instruments without task-specific training. This approach enables robust instrument tracking and scene understanding in dynamic clinical environments.