DARES: Depth Anything in Robotic Endoscopic Surgery with Self-supervised Vector-LoRA of the Foundation Model
作者: Mona Sheikh Zeinoddin, Chiara Lena, Jiongqi Qu, Luca Carlini, Mattia Magro, Seunghoi Kim, Elena De Momi, Sophia Bano, Matthew Grech-Sollars, Evangelos Mazomenos, Daniel C. Alexander, Danail Stoyanov, Matthew J. Clarkson, Mobarakol Islam
分类: cs.CV
发布日期: 2024-08-30 (更新: 2024-10-21)
备注: 11 pages
🔗 代码/项目: GITHUB
💡 一句话要点
DARES:利用自监督Vector-LoRA改进机器人内窥镜手术中的Depth Anything模型
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人手术 深度估计 自监督学习 低秩适应 Vector-LoRA 内窥镜 深度学习
📋 核心要点
- 现有深度估计模型在机器人手术中直接应用效果不佳,且微调易过拟合,泛化性差。
- DARES提出Vector-LoRA,自适应调整模型参数,更有效地利用手术数据进行深度估计。
- 实验表明,DARES在SCARED数据集上显著优于现有自监督单目深度估计方法,提升13.3%。
📝 摘要(中文)
机器人辅助手术(RAS)依赖于精确的深度估计以实现3D重建和可视化。虽然像Depth Anything Models (DAM)这样的基础模型展现了潜力,但直接应用它们到手术中通常会产生次优的结果。在有限的手术数据上进行完全微调会导致过拟合和灾难性遗忘,从而损害模型的鲁棒性和泛化能力。虽然低秩适应(LoRA)解决了一些适应问题,但其均匀的参数分布忽略了固有的特征层次结构,即早期层学习更通用的特征,需要比后期层更多的参数。为了解决这个问题,我们引入了机器人内窥镜手术中的Depth Anything (DARES),这是一种新颖的方法,它在DAM V2上采用了一种新的适应技术,即Vector Low-Rank Adaptation (Vector-LoRA),以在RAS场景中执行自监督单目深度估计。为了提高学习效率,我们通过在早期层集成更多参数并在后期层逐渐减少参数来引入Vector-LoRA。我们还设计了一种基于多尺度SSIM误差的重投影损失,通过更好地根据手术环境的特定要求定制基础模型来增强深度感知。所提出的方法在SCARED数据集上进行了验证,并证明了其优于最近最先进的自监督单目深度估计技术,在绝对相对误差指标上实现了13.3%的改进。代码和预训练权重可在https://github.com/mobarakol/DARES获得。
🔬 方法详解
问题定义:论文旨在解决机器人辅助内窥镜手术中,利用深度学习模型进行精确深度估计的问题。现有方法,特别是直接应用预训练的深度估计模型(如Depth Anything Models),在手术场景下表现不佳。主要痛点在于,手术数据有限,对这些模型进行完全微调容易导致过拟合和灾难性遗忘,从而影响模型的鲁棒性和泛化能力。此外,现有的低秩适应方法(LoRA)虽然可以缓解微调问题,但其均匀的参数分配方式忽略了特征层级结构,未能充分利用不同层级特征的学习特性。
核心思路:论文的核心思路是利用一种改进的低秩适应方法,即Vector-LoRA,来自适应地调整深度估计模型的参数,使其更好地适应手术场景。Vector-LoRA的核心在于,它能够根据特征层级结构,动态地分配参数,在早期层分配更多的参数,在后期层分配较少的参数,从而更有效地利用模型容量,学习手术场景中的特定特征。此外,论文还设计了一种基于多尺度SSIM误差的重投影损失,以进一步提高深度估计的准确性。
技术框架:DARES的整体框架基于Depth Anything Model V2,并在此基础上引入了Vector-LoRA模块和重投影损失。具体流程如下:首先,使用手术图像作为输入,通过DAM V2提取特征。然后,利用Vector-LoRA模块对DAM V2的参数进行自适应调整,使其更好地适应手术场景。最后,利用重投影损失函数对深度估计结果进行优化,提高深度估计的准确性。
关键创新:论文最重要的技术创新点在于提出了Vector-LoRA。与传统的LoRA相比,Vector-LoRA能够根据特征层级结构,动态地分配参数,从而更有效地利用模型容量,学习手术场景中的特定特征。这种自适应的参数分配方式,使得模型能够更好地平衡泛化能力和特定任务的适应性。
关键设计:Vector-LoRA的关键设计在于其参数分配策略。论文通过实验确定了最佳的参数分配方案,即在早期层分配更多的参数,在后期层分配较少的参数。此外,重投影损失函数的设计也至关重要。论文采用了基于多尺度SSIM误差的重投影损失,以提高深度估计的准确性和鲁棒性。具体而言,该损失函数考虑了不同尺度的图像信息,从而能够更好地处理手术场景中的复杂光照和遮挡情况。
🖼️ 关键图片
📊 实验亮点
DARES在SCARED数据集上进行了验证,实验结果表明,DARES显著优于现有的自监督单目深度估计方法。具体而言,DARES在绝对相对误差(Abs Rel)指标上实现了13.3%的改进,证明了其在机器人辅助内窥镜手术深度估计方面的优越性能。
🎯 应用场景
DARES在机器人辅助内窥镜手术中具有广泛的应用前景,可以用于3D重建、导航、增强现实可视化以及手术机器人自主操作等方面。精确的深度估计能够帮助医生更好地理解手术场景,提高手术的安全性与精确性。未来,该技术有望应用于更广泛的医疗影像分析和手术机器人领域。
📄 摘要(原文)
Robotic-assisted surgery (RAS) relies on accurate depth estimation for 3D reconstruction and visualization. While foundation models like Depth Anything Models (DAM) show promise, directly applying them to surgery often yields suboptimal results. Fully fine-tuning on limited surgical data can cause overfitting and catastrophic forgetting, compromising model robustness and generalization. Although Low-Rank Adaptation (LoRA) addresses some adaptation issues, its uniform parameter distribution neglects the inherent feature hierarchy, where earlier layers, learning more general features, require more parameters than later ones. To tackle this issue, we introduce Depth Anything in Robotic Endoscopic Surgery (DARES), a novel approach that employs a new adaptation technique, Vector Low-Rank Adaptation (Vector-LoRA) on the DAM V2 to perform self-supervised monocular depth estimation in RAS scenes. To enhance learning efficiency, we introduce Vector-LoRA by integrating more parameters in earlier layers and gradually decreasing parameters in later layers. We also design a reprojection loss based on the multi-scale SSIM error to enhance depth perception by better tailoring the foundation model to the specific requirements of the surgical environment. The proposed method is validated on the SCARED dataset and demonstrates superior performance over recent state-of-the-art self-supervised monocular depth estimation techniques, achieving an improvement of 13.3% in the absolute relative error metric. The code and pre-trained weights are available at https://github.com/mobarakol/DARES.