StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes

📄 arXiv: 2509.16415v1 📥 PDF

作者: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang

分类: cs.CV, cs.RO

发布日期: 2025-09-19

🔗 代码/项目: GITHUB | PROJECT_PAGE


💡 一句话要点

StereoAdapter:一种用于水下场景立体深度估计的自适应框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 水下立体视觉 深度估计 领域自适应 LoRA 自监督学习

📋 核心要点

  1. 现有水下立体深度估计方法难以兼顾参数效率和领域适应性,且难以有效融合单目先验信息。
  2. StereoAdapter通过LoRA自适应单目基础编码器和循环立体细化模块,实现了参数高效的自监督水下深度估计。
  3. 实验表明,StereoAdapter在模拟和真实水下数据集上均优于现有方法,并在真实机器人平台上验证了其鲁棒性。

📝 摘要(中文)

水下立体深度估计为导航、检测和测绘等机器人任务提供精确的3D几何信息,它利用低成本的被动相机提供度量深度,同时避免了单目方法的尺度模糊性。然而,现有方法面临两个关键挑战:(i) 如何在没有大量标注数据的情况下,以参数高效的方式将大型视觉基础编码器适应于水下领域;(ii) 如何将全局连贯但尺度模糊的单目先验与局部度量但光度脆弱的立体对应关系紧密融合。为了解决这些挑战,我们提出了StereoAdapter,一个参数高效的自监督框架,它集成了LoRA自适应的单目基础编码器和一个循环立体细化模块。我们进一步引入了动态LoRA自适应,用于高效的秩选择,并在合成的UW-StereoDepth-40K数据集上进行预训练,以增强在各种水下条件下的鲁棒性。在模拟和真实世界基准上的全面评估表明,与最先进的方法相比,在TartanAir上提高了6.11%,在SQUID上提高了5.12%,并且在BlueROV2机器人上的真实世界部署进一步证明了我们方法的一致鲁棒性。

🔬 方法详解

问题定义:水下立体深度估计旨在利用双目图像恢复场景的深度信息,为水下机器人提供环境感知能力。然而,现有方法通常需要大量标注数据进行训练,且难以将预训练的视觉基础模型有效迁移到水下环境。此外,单目深度估计虽然可以提供全局一致的深度信息,但存在尺度模糊问题,而立体匹配虽然可以提供局部精确的深度信息,但容易受到水下光照和噪声的影响。因此,如何高效地利用少量数据,融合单目先验和立体匹配结果,是水下立体深度估计的关键挑战。

核心思路:StereoAdapter的核心思路是利用参数高效的LoRA (Low-Rank Adaptation) 方法,将预训练的单目深度估计模型快速适应到水下场景,并将其作为先验信息,指导立体匹配过程。同时,利用循环细化模块,逐步优化立体匹配结果,提高深度估计的精度和鲁棒性。通过这种方式,StereoAdapter可以在少量标注数据的情况下,实现高性能的水下立体深度估计。

技术框架:StereoAdapter的整体框架包含三个主要模块:(1) LoRA自适应的单目基础编码器:利用LoRA方法,将预训练的单目深度估计模型(例如DPT)适应到水下场景,生成单目深度先验。(2) 立体匹配模块:利用立体匹配算法(例如RAFT-Stereo)计算左右图像之间的视差图。(3) 循环立体细化模块:利用循环神经网络(例如GRU)逐步融合单目深度先验和立体匹配结果,优化深度估计的精度和鲁棒性。

关键创新:StereoAdapter的关键创新在于:(1) 提出了基于LoRA的参数高效的领域自适应方法,可以在少量数据下快速将预训练模型迁移到水下场景。(2) 设计了循环立体细化模块,可以有效地融合单目深度先验和立体匹配结果,提高深度估计的精度和鲁棒性。(3) 提出了动态LoRA自适应策略,可以根据不同的水下场景自动选择合适的LoRA秩,进一步提高模型的泛化能力。

关键设计:在LoRA自适应模块中,采用了动态秩选择策略,根据输入图像的特征动态调整LoRA的秩,以平衡模型容量和参数效率。在循环立体细化模块中,采用了GRU作为循环单元,并设计了专门的融合机制,将单目深度先验和立体匹配结果进行有效融合。损失函数包括深度损失、视差损失和一致性损失,用于约束深度估计的精度和一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

StereoAdapter在TartanAir和SQUID数据集上分别取得了6.11%和5.12%的性能提升,显著优于现有方法。此外,在BlueROV2机器人上的真实水下实验表明,StereoAdapter具有良好的鲁棒性和泛化能力,能够适应复杂的水下环境。

🎯 应用场景

StereoAdapter在水下机器人导航、水下结构检测、水下环境测绘等领域具有广泛的应用前景。它可以为水下机器人提供精确的3D环境感知能力,使其能够更好地完成各种水下任务。此外,该方法还可以应用于水下考古、海洋资源勘探等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Underwater stereo depth estimation provides accurate 3D geometry for robotics tasks such as navigation, inspection, and mapping, offering metric depth from low-cost passive cameras while avoiding the scale ambiguity of monocular methods. However, existing approaches face two critical challenges: (i) parameter-efficiently adapting large vision foundation encoders to the underwater domain without extensive labeled data, and (ii) tightly fusing globally coherent but scale-ambiguous monocular priors with locally metric yet photometrically fragile stereo correspondences. To address these challenges, we propose StereoAdapter, a parameter-efficient self-supervised framework that integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo refinement module. We further introduce dynamic LoRA adaptation for efficient rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to enhance robustness under diverse underwater conditions. Comprehensive evaluations on both simulated and real-world benchmarks show improvements of 6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods, while real-world deployment with the BlueROV2 robot further demonstrates the consistent robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.