EndoDAC: Efficient Adapting Foundation Model for Self-Supervised Depth Estimation from Any Endoscopic Camera
作者: Beilei Cui, Mobarakol Islam, Long Bai, An Wang, Hongliang Ren
分类: eess.IV, cs.CV
发布日期: 2024-05-14
备注: early accepted by MICCAI 2024
🔗 代码/项目: GITHUB
💡 一句话要点
EndoDAC:高效自监督内窥镜深度估计,适配任意相机
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 内窥镜深度估计 自监督学习 低秩适配 基础模型 相机内参估计
📋 核心要点
- 现有方法难以将视觉基础模型有效适配到内窥镜深度估计任务,尤其是在相机参数未知的情况下。
- EndoDAC通过动态向量低秩适配(DV-LoRA)和卷积颈部块,高效地将基础模型迁移到内窥镜场景。
- 该框架采用自监督学习策略估计相机内参,仅需单目手术视频即可训练,降低了训练成本并提升了性能。
📝 摘要(中文)
深度估计在内窥镜手术的导航、表面重建和增强现实可视化等任务中至关重要。尽管基础模型在视觉任务(包括深度估计)中取得了显著成就,但直接应用于医疗领域通常会导致次优性能。这突显了高效适配方法的需求,以使这些模型适应内窥镜深度估计。我们提出了内窥镜深度任意相机(EndoDAC),这是一个高效的自监督深度估计框架,可将基础模型适配到内窥镜场景。具体来说,我们开发了基于动态向量的低秩适配(DV-LoRA),并采用卷积颈部块来定制基础模型以适应手术领域,仅使用极少的训练参数。考虑到相机信息并非总是可访问的,我们还引入了一种自监督适配策略,该策略使用姿态编码器估计相机内参。我们的框架能够仅在来自任何相机的单目手术视频上进行训练,从而确保最小的训练成本。实验表明,即使在训练周期较少且不了解真实相机内参的情况下,我们的方法也能获得卓越的性能。
🔬 方法详解
问题定义:内窥镜手术中的深度估计对于导航、表面重建和增强现实可视化至关重要。然而,直接将视觉领域的基础模型应用于内窥镜图像时,由于领域差异和缺乏特定数据,性能往往不佳。此外,内窥镜相机的内参信息通常难以获取,进一步限制了现有方法的应用。
核心思路:EndoDAC的核心思路是利用低秩适配(LoRA)方法,以极少的参数量将预训练的基础模型高效地迁移到内窥镜深度估计任务中。同时,通过自监督学习的方式,从单目视频中估计相机内参,从而摆脱对相机标定的依赖。
技术框架:EndoDAC框架主要包含以下几个模块:1) 预训练的视觉基础模型(用于提取图像特征);2) 动态向量低秩适配(DV-LoRA)模块(用于高效地微调基础模型);3) 卷积颈部块(用于进一步提取手术场景的特征);4) 姿态编码器(用于估计相机姿态);5) 相机内参估计模块(用于自监督学习相机内参)。整个流程是,输入单目内窥镜视频,通过基础模型提取特征,DV-LoRA和卷积颈部块进行特征适配,姿态编码器和相机内参估计模块进行自监督训练。
关键创新:EndoDAC的关键创新在于:1) 提出了动态向量低秩适配(DV-LoRA),相比于传统的LoRA,DV-LoRA能够更有效地适配基础模型,同时保持较低的参数量;2) 提出了自监督相机内参估计方法,无需相机标定即可进行训练,大大降低了应用门槛。
关键设计:DV-LoRA的具体实现方式是,在LoRA的基础上,引入了动态向量来调整低秩矩阵的权重,从而更好地适应内窥镜图像的特征。自监督相机内参估计模块通过最小化重投影误差来进行训练,损失函数包括光度一致性损失和几何一致性损失。网络结构方面,卷积颈部块采用了多个卷积层和池化层,用于提取手术场景的局部特征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EndoDAC在内窥镜深度估计任务上取得了优于现有方法的性能,即使在训练周期较少且相机内参未知的情况下,也能达到SOTA水平。与传统方法相比,EndoDAC在参数量和计算复杂度上具有显著优势,更易于部署和应用。
🎯 应用场景
EndoDAC可广泛应用于内窥镜手术机器人导航、术中三维重建、增强现实手术可视化等领域。该研究降低了内窥镜深度估计的部署成本,提升了手术精度和安全性,有望推动智能手术技术的发展,并改善患者的治疗效果。
📄 摘要(原文)
Depth estimation plays a crucial role in various tasks within endoscopic surgery, including navigation, surface reconstruction, and augmented reality visualization. Despite the significant achievements of foundation models in vision tasks, including depth estimation, their direct application to the medical domain often results in suboptimal performance. This highlights the need for efficient adaptation methods to adapt these models to endoscopic depth estimation. We propose Endoscopic Depth Any Camera (EndoDAC) which is an efficient self-supervised depth estimation framework that adapts foundation models to endoscopic scenes. Specifically, we develop the Dynamic Vector-Based Low-Rank Adaptation (DV-LoRA) and employ Convolutional Neck blocks to tailor the foundational model to the surgical domain, utilizing remarkably few trainable parameters. Given that camera information is not always accessible, we also introduce a self-supervised adaptation strategy that estimates camera intrinsics using the pose encoder. Our framework is capable of being trained solely on monocular surgical videos from any camera, ensuring minimal training costs. Experiments demonstrate that our approach obtains superior performance even with fewer training epochs and unaware of the ground truth camera intrinsics. Code is available at https://github.com/BeileiCui/EndoDAC.