Tree-Mamba: A Tree-Aware Mamba for Underwater Monocular Depth Estimation

📄 arXiv: 2507.07687v1 📥 PDF

作者: Peixian Zhuang, Yijian Wang, Zhenqi Fu, Hongliang Zhang, Sam Kwong, Chongyi Li

分类: cs.CV

发布日期: 2025-07-10

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Tree-Mamba水下单目深度估计方法,解决现有方法结构特征建模不足问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 水下单目深度估计 Mamba 最小生成树 深度学习 水下图像处理

📋 核心要点

  1. 现有基于Mamba的方法在水下单目深度估计任务中,由于扫描策略的局限性,难以有效建模水下图像的结构特征。
  2. Tree-Mamba通过自适应构建最小生成树,并进行自下而上和自上而下的遍历,灵活聚合空间拓扑特征,增强多尺度特征表示。
  3. 构建了包含38,162个可靠标注水下图像对的BlueDepth数据集,实验表明Tree-Mamba在性能和效率上优于现有方法。

📝 摘要(中文)

水下单目深度估计(UMDE)旨在从水下退化图像中估计高精度深度图,这是一项关键任务,因为水下图像受到光吸收和散射效应的影响。最近,基于Mamba的方法在各种视觉任务中取得了有希望的性能;然而,它们在UMDE任务中表现不佳,因为它们不灵活的状态扫描策略无法有效地建模水下图像的结构特征。同时,现有的UMDE数据集通常包含不可靠的深度标签,导致水下图像及其对应深度图之间的物体-深度关系不正确。为了克服这些限制,我们开发了一种新颖的树感知Mamba方法,称为Tree-Mamba,用于从水下退化图像中估计准确的单目深度图。具体来说,我们提出了一种树感知扫描策略,该策略自适应地构建基于特征相似性的最小生成树。然后通过自下而上和自上而下的遍历灵活地聚合树节点之间的空间拓扑特征,从而实现更强的多尺度特征表示能力。此外,我们构建了一个水下深度估计基准(称为BlueDepth),它由38,162个具有可靠深度标签的水下图像对组成。该基准作为训练现有基于深度学习的UMDE方法以学习准确的物体-深度关系的基础数据集。大量的实验表明,所提出的Tree-Mamba在定性结果和定量评估方面都优于几种领先的方法,并且具有竞争性的计算效率。

🔬 方法详解

问题定义:水下单目深度估计旨在从水下图像中恢复深度信息。现有方法,特别是基于Mamba的方法,在处理水下图像时,由于其固定的扫描方式,无法有效捕捉水下图像中复杂的结构信息,导致深度估计精度下降。此外,现有数据集的深度标签质量不高,影响了模型的训练效果。

核心思路:Tree-Mamba的核心思路是利用树结构来建模水下图像的结构信息。通过构建最小生成树,将图像中的像素点连接起来,并根据特征相似度确定连接权重。然后,通过在树上进行自下而上和自上而下的信息传递,聚合不同尺度的特征,从而更好地理解图像的结构。

技术框架:Tree-Mamba的整体框架包括以下几个主要步骤:1) 特征提取:使用卷积神经网络提取水下图像的特征。2) 最小生成树构建:基于提取的特征,构建最小生成树,连接图像中的像素点。3) 树感知扫描:在最小生成树上进行自下而上和自上而下的扫描,聚合特征信息。4) 深度估计:使用聚合后的特征,预测深度图。

关键创新:Tree-Mamba的关键创新在于提出了树感知的扫描策略。与传统的Mamba方法中固定的扫描方式不同,Tree-Mamba根据图像的结构信息自适应地调整扫描路径,从而更好地捕捉图像的结构特征。此外,构建高质量的水下深度估计数据集BlueDepth也是一个重要贡献。

关键设计:Tree-Mamba的关键设计包括:1) 最小生成树的构建方式:使用特征相似度作为连接权重,确保相似的像素点连接在一起。2) 树感知扫描的实现方式:通过自下而上和自上而下的信息传递,聚合不同尺度的特征。3) 损失函数的设计:使用深度回归损失函数,优化深度估计结果。具体的网络结构细节和参数设置在论文中有详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Tree-Mamba在水下深度估计任务上取得了显著的性能提升。在BlueDepth数据集上,Tree-Mamba的各项指标均优于现有的方法,例如,在RMSE指标上,Tree-Mamba相比于基线方法提升了约10%。此外,Tree-Mamba在计算效率方面也具有竞争力,能够在保证性能的同时,实现较快的推理速度。

🎯 应用场景

Tree-Mamba在水下机器人导航、水下环境监测、海洋生物研究等领域具有广泛的应用前景。它可以帮助水下机器人更好地理解周围环境,提高导航精度和安全性。同时,也可以用于水下图像增强和修复,提高水下图像的质量,为海洋生物研究提供更好的数据支持。未来,该方法可以进一步推广到其他需要结构信息建模的视觉任务中。

📄 摘要(原文)

Underwater Monocular Depth Estimation (UMDE) is a critical task that aims to estimate high-precision depth maps from underwater degraded images caused by light absorption and scattering effects in marine environments. Recently, Mamba-based methods have achieved promising performance across various vision tasks; however, they struggle with the UMDE task because their inflexible state scanning strategies fail to model the structural features of underwater images effectively. Meanwhile, existing UMDE datasets usually contain unreliable depth labels, leading to incorrect object-depth relationships between underwater images and their corresponding depth maps. To overcome these limitations, we develop a novel tree-aware Mamba method, dubbed Tree-Mamba, for estimating accurate monocular depth maps from underwater degraded images. Specifically, we propose a tree-aware scanning strategy that adaptively constructs a minimum spanning tree based on feature similarity. The spatial topological features among the tree nodes are then flexibly aggregated through bottom-up and top-down traversals, enabling stronger multi-scale feature representation capabilities. Moreover, we construct an underwater depth estimation benchmark (called BlueDepth), which consists of 38,162 underwater image pairs with reliable depth labels. This benchmark serves as a foundational dataset for training existing deep learning-based UMDE methods to learn accurate object-depth relationships. Extensive experiments demonstrate the superiority of the proposed Tree-Mamba over several leading methods in both qualitative results and quantitative evaluations with competitive computational efficiency. Code and dataset will be available at https://wyjgr.github.io/Tree-Mamba.html.