Underwater Monocular Metric Depth Estimation: Real-World Benchmarks and Synthetic Fine-Tuning with Vision Foundation Models
作者: Zijie Cai, Christopher Metzler
分类: cs.CV
发布日期: 2025-07-02 (更新: 2025-07-10)
💡 一句话要点
提出水下单目深度估计基准,并用视觉基础模型进行合成数据微调。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 水下深度估计 单目视觉 视觉基础模型 领域自适应 合成数据 深度学习 水下机器人
📋 核心要点
- 水下环境光照复杂,缺乏高质量的度量深度数据,导致现有单目深度估计方法效果不佳。
- 利用视觉基础模型,通过在合成水下数据上微调,实现领域自适应,提升水下深度估计精度。
- 在真实水下数据集上进行了广泛评估,证明了微调后的模型性能显著优于现有方法。
📝 摘要(中文)
单目深度估计最近已从序数深度发展到提供度量深度预测。然而,由于光衰减和散射、颜色失真、浊度以及缺乏高质量的度量真值数据,其在水下环境中的可靠性仍然有限。本文提出了一个全面的基准,用于评估零样本和微调的单目度量深度估计模型在真实水下数据集(包括FLSea和SQUID)上的性能,这些数据集具有度量深度标注。我们评估了一系列最先进的视觉基础模型在各种水下条件和深度范围下的表现。结果表明,在陆地数据(真实或合成)上训练的大规模模型在空气环境中有效,但由于显著的领域差异,在水下环境中表现不佳。为了解决这个问题,我们使用基于物理的水下图像形成模型模拟的Hypersim数据集的水下变体,对具有ViT-S骨干编码器的Depth Anything V2进行了微调。我们的微调模型在所有基准测试中始终提高了性能,并且优于仅在干净的空气Hypersim数据集上训练的基线。这项研究提出了对水下场景中单目度量深度估计的详细评估和可视化,强调了领域自适应和尺度感知监督对于在具有挑战性的环境中使用基础模型实现鲁棒和可泛化的度量深度预测的重要性。
🔬 方法详解
问题定义:论文旨在解决水下单目深度估计问题,现有方法在空气环境中表现良好,但在水下环境中由于光衰减、散射、颜色失真等因素,以及缺乏高质量的度量深度真值数据,导致性能显著下降。现有方法难以适应水下环境的领域差异。
核心思路:论文的核心思路是利用视觉基础模型强大的表征能力,通过在合成的水下数据集上进行微调,使模型能够适应水下环境的特性,从而提高水下深度估计的准确性和鲁棒性。通过领域自适应,减小陆地环境和水下环境之间的差距。
技术框架:整体框架包括以下几个主要步骤:1) 选择合适的视觉基础模型(如Depth Anything V2);2) 使用物理模型生成合成水下数据集(Hypersim的水下变体);3) 在合成水下数据集上对视觉基础模型进行微调;4) 在真实水下数据集(FLSea和SQUID)上进行评估。该框架利用了预训练模型的先验知识,并通过微调使其适应特定领域。
关键创新:论文的关键创新在于:1) 构建了水下单目深度估计的基准数据集,包括真实数据和合成数据;2) 提出了基于视觉基础模型和合成数据微调的水下深度估计方法,有效解决了领域差异问题;3) 详细评估了不同模型在水下环境中的性能,并进行了可视化分析。
关键设计:论文的关键设计包括:1) 使用ViT-S作为Depth Anything V2的骨干编码器,以平衡性能和计算成本;2) 使用基于物理的水下图像形成模型来生成逼真的合成水下数据,模拟光衰减、散射等现象;3) 使用L1损失函数和尺度感知损失函数进行微调,以提高深度估计的准确性和尺度一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在合成水下数据上微调后的Depth Anything V2模型在真实水下数据集上取得了显著的性能提升,优于仅在空气数据上训练的基线模型。该方法在FLSea和SQUID数据集上均取得了最佳结果,验证了领域自适应的有效性。可视化结果也表明,微调后的模型能够更准确地估计水下场景的深度信息。
🎯 应用场景
该研究成果可应用于水下机器人导航、水下环境监测、水下考古、水下目标检测与识别等领域。通过提高水下深度估计的准确性,可以提升水下作业的效率和安全性,并为水下环境的理解和利用提供更可靠的数据支持。未来可进一步扩展到其他水下视觉任务,例如水下三维重建。
📄 摘要(原文)
Monocular depth estimation has recently progressed beyond ordinal depth to provide metric depth predictions. However, its reliability in underwater environments remains limited due to light attenuation and scattering, color distortion, turbidity, and the lack of high-quality metric ground truth data. In this paper, we present a comprehensive benchmark of zero-shot and fine-tuned monocular metric depth estimation models on real-world underwater datasets with metric depth annotations, including FLSea and SQUID. We evaluated a diverse set of state-of-the-art Vision Foundation Models across a range of underwater conditions and depth ranges. Our results show that large-scale models trained on terrestrial data (real or synthetic) are effective in in-air settings, but perform poorly underwater due to significant domain shifts. To address this, we fine-tune Depth Anything V2 with a ViT-S backbone encoder on a synthetic underwater variant of the Hypersim dataset, which we simulated using a physically based underwater image formation model. Our fine-tuned model consistently improves performance across all benchmarks and outperforms baselines trained only on the clean in-air Hypersim dataset. This study presents a detailed evaluation and visualization of monocular metric depth estimation in underwater scenes, emphasizing the importance of domain adaptation and scale-aware supervision for achieving robust and generalizable metric depth predictions using foundation models in challenging environments.