SPADE: Sparsity Adaptive Depth Estimator for Zero-Shot, Real-Time, Monocular Depth Estimation in Underwater Environments

作者: Hongjie Zhang, Gideon Billings, Stefan B. Williams

分类: cs.CV, cs.RO

发布日期: 2025-10-29

💡 一句话要点

SPADE：水下零样本单目深度估计的稀疏自适应深度估计器

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 水下深度估计 单目视觉 稀疏深度先验 可变形Transformer 实时性 嵌入式系统

📋 核心要点

水下基础设施维护面临挑战，现有方法依赖人工或遥控车辆，在复杂结构或浑浊水域受限。
SPADE结合预训练相对深度估计器与稀疏深度先验，生成稠密且具有度量尺度的深度图。
SPADE在精度和泛化性上优于现有技术，且在嵌入式硬件上高效运行，帧率超过15FPS。

📝 摘要（中文）

本文提出了一种名为SPADE（SParsity Adaptive Depth Estimator）的单目深度估计流水线，旨在解决水下环境中的深度感知问题。该方法结合了预训练的相对深度估计器和稀疏深度先验，生成稠密的、具有度量尺度的深度图。SPADE采用两阶段方法：首先利用稀疏深度点缩放相对深度图，然后通过提出的级联卷积-可变形Transformer块细化最终的度量预测。实验结果表明，该方法在精度和泛化能力上优于现有技术，并且在嵌入式硬件上能够以超过15 FPS的效率运行，有望支持实际的水下检查和干预。

🔬 方法详解

问题定义：水下环境的单目深度估计是一个具有挑战性的问题，现有方法在水下复杂场景和浑浊水域中表现不佳。依赖人工或遥控车辆进行水下基础设施维护成本高昂且效率低下，提升水下机器人的空间感知能力是实现自主水下作业的关键。现有方法难以在精度、泛化性和计算效率之间取得平衡，尤其是在资源受限的嵌入式平台上。

核心思路：SPADE的核心思路是利用预训练的相对深度估计器提供初始的深度信息，并结合稀疏深度先验来校正和缩放深度图，从而生成具有度量尺度的稠密深度图。通过两阶段的优化策略，首先利用稀疏深度信息对相对深度图进行缩放，然后使用级联的卷积和可变形Transformer块进行深度图的精细化。这种设计旨在充分利用相对深度信息的全局一致性和稀疏深度信息的局部准确性，从而提高深度估计的精度和鲁棒性。

技术框架：SPADE的整体框架包含两个主要阶段：1) 稀疏深度缩放阶段：利用稀疏深度点对预训练的相对深度估计器输出的相对深度图进行缩放，得到初步的具有度量尺度的深度图。2) 深度图细化阶段：使用提出的Cascade Conv-Deformable Transformer块对初步的深度图进行细化，从而得到最终的稠密深度图。Cascade Conv-Deformable Transformer块由多个卷积层和可变形Transformer层组成，能够有效地提取图像的局部和全局特征，并对深度图进行精细的调整。

关键创新：SPADE的关键创新在于提出了Cascade Conv-Deformable Transformer块，该模块结合了卷积和可变形Transformer的优点，能够有效地提取图像的局部和全局特征，并对深度图进行精细的调整。与传统的卷积神经网络相比，可变形Transformer能够更好地适应水下图像的复杂结构和光照变化。此外，SPADE还提出了一种两阶段的优化策略，能够有效地利用相对深度信息和稀疏深度信息，从而提高深度估计的精度和鲁棒性。

关键设计：Cascade Conv-Deformable Transformer块的具体结构包括多个卷积层和可变形Transformer层，卷积层用于提取局部特征，可变形Transformer层用于提取全局特征。可变形Transformer层采用可变形注意力机制，能够根据图像的内容自适应地调整注意力权重。损失函数包括深度图的L1损失和梯度损失，用于约束深度图的精度和平滑性。稀疏深度信息的获取可以通过多种方式实现，例如使用声呐或激光雷达等传感器。

🖼️ 关键图片

📊 实验亮点

SPADE在水下数据集上取得了显著的性能提升，精度和泛化能力优于现有技术。该方法在嵌入式硬件上能够以超过15 FPS的效率运行，满足实时性要求。实验结果表明，SPADE能够有效地处理水下图像的复杂结构和光照变化，生成高质量的深度图。

🎯 应用场景

SPADE可应用于水下机器人自主导航、水下基础设施检测与维护、水下环境建模等领域。该方法能够提高水下机器人的空间感知能力，降低人工干预的需求，提升水下作业的效率和安全性。未来，SPADE有望应用于更广泛的水下场景，例如水下考古、海洋资源勘探等。

📄 摘要（原文）

Underwater infrastructure requires frequent inspection and maintenance due to harsh marine conditions. Current reliance on human divers or remotely operated vehicles is limited by perceptual and operational challenges, especially around complex structures or in turbid water. Enhancing the spatial awareness of underwater vehicles is key to reducing piloting risks and enabling greater autonomy. To address these challenges, we present SPADE: SParsity Adaptive Depth Estimator, a monocular depth estimation pipeline that combines pre-trained relative depth estimator with sparse depth priors to produce dense, metric scale depth maps. Our two-stage approach first scales the relative depth map with the sparse depth points, then refines the final metric prediction with our proposed Cascade Conv-Deformable Transformer blocks. Our approach achieves improved accuracy and generalisation over state-of-the-art baselines and runs efficiently at over 15 FPS on embedded hardware, promising to support practical underwater inspection and intervention. This work has been submitted to IEEE Journal of Oceanic Engineering Special Issue of AUV 2026.

SPADE: Sparsity Adaptive Depth Estimator for Zero-Shot, Real-Time, Monocular Depth Estimation in Underwater Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理