Harnessing Foundation Models for Robust and Generalizable 6-DOF Bronchoscopy Localization

📄 arXiv: 2505.24249v1 📥 PDF

作者: Qingyao Tian, Huai Liao, Xinyan Huang, Bingyu Yang, Hongbin Liu

分类: cs.CV

发布日期: 2025-05-30


💡 一句话要点

提出PANSv2以解决支气管镜定位的鲁棒性与泛化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 支气管镜定位 深度估计 地标检测 姿态优化 鲁棒性 泛化能力 内窥镜技术

📋 核心要点

  1. 现有支气管镜定位方法在患者案例间的泛化能力不足,且在视觉退化情况下表现不佳,影响临床应用。
  2. PANSv2框架通过整合深度估计、地标检测和中心线约束,提升了姿态优化的准确性和鲁棒性。
  3. 在10个患者案例的实验中,PANSv2实现了最高的跟踪成功率,SR-5指标提升了18.1%,显示出良好的临床应用潜力。

📝 摘要(中文)

基于视觉的6自由度支气管镜定位为精确且经济的介入指导提供了有前景的解决方案。然而,现有方法在患者案例的泛化能力上受限于标注数据稀缺,并且在视觉退化情况下表现不佳。为了解决这些挑战,本文提出了PANSv2框架,集成了深度估计、地标检测和中心线约束,形成统一的姿态优化框架。通过利用预训练的内窥镜基础模型EndoOmni和视频基础模型EndoMamba,PANSv2在多样化的支气管镜场景中实现了稳定的视觉表现。实验结果表明,PANSv2在10个患者案例的数据集上取得了最高的跟踪成功率,相较于现有方法在SR-5指标上提升了18.1%。

🔬 方法详解

问题定义:本文旨在解决支气管镜定位中存在的泛化能力不足和视觉退化带来的鲁棒性问题。现有方法在处理不同患者的情况下,因标注数据稀缺而难以泛化,同时在面对运动模糊和遮挡等视觉退化时表现不佳。

核心思路:PANSv2框架通过结合深度估计、地标检测和中心线约束,形成一个统一的姿态优化框架,以提高定位的准确性和鲁棒性。该设计旨在利用多种视觉线索来增强姿态概率的评估。

技术框架:PANSv2的整体架构包括三个主要模块:深度估计模块、地标检测模块和姿态优化模块。深度估计模块使用EndoOmni模型,地标检测模块使用EndoMamba模型,最后通过姿态优化模块整合信息以计算最佳姿态。

关键创新:PANSv2的主要创新在于引入了自动重初始化模块,能够在跟踪失败时自动检测并重新建立姿态,显著提高了系统的鲁棒性。与现有方法相比,PANSv2在处理视觉退化时表现更为稳定。

关键设计:在技术细节上,PANSv2使用了预训练的基础模型以提供稳定的视觉表示,损失函数设计上考虑了多种视觉线索的融合,确保了在不同场景下的有效性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在实验中,PANSv2在10个患者案例的数据集上实现了最高的跟踪成功率,相比于现有方法,SR-5指标提升了18.1%。这一显著的性能提升表明PANSv2在实际临床应用中的巨大潜力。

🎯 应用场景

该研究的潜在应用领域包括医疗内窥镜手术中的导航与定位,能够为医生提供更为精确的介入指导,提升手术的安全性和有效性。未来,PANSv2有望在更广泛的临床场景中得到应用,推动内窥镜技术的发展。

📄 摘要(原文)

Vision-based 6-DOF bronchoscopy localization offers a promising solution for accurate and cost-effective interventional guidance. However, existing methods struggle with 1) limited generalization across patient cases due to scarce labeled data, and 2) poor robustness under visual degradation, as bronchoscopy procedures frequently involve artifacts such as occlusions and motion blur that impair visual information. To address these challenges, we propose PANSv2, a generalizable and robust bronchoscopy localization framework. Motivated by PANS that leverages multiple visual cues for pose likelihood measurement, PANSv2 integrates depth estimation, landmark detection, and centerline constraints into a unified pose optimization framework that evaluates pose probability and solves for the optimal bronchoscope pose. To further enhance generalization capabilities, we leverage the endoscopic foundation model EndoOmni for depth estimation and the video foundation model EndoMamba for landmark detection, incorporating both spatial and temporal analyses. Pretrained on diverse endoscopic datasets, these models provide stable and transferable visual representations, enabling reliable performance across varied bronchoscopy scenarios. Additionally, to improve robustness to visual degradation, we introduce an automatic re-initialization module that detects tracking failures and re-establishes pose using landmark detections once clear views are available. Experimental results on bronchoscopy dataset encompassing 10 patient cases show that PANSv2 achieves the highest tracking success rate, with an 18.1% improvement in SR-5 (percentage of absolute trajectory error under 5 mm) compared to existing methods, showing potential towards real clinical usage.