DepthMamba with Adaptive Fusion
作者: Zelin Meng, Zhichen Wang
分类: cs.CV, cs.AI
发布日期: 2024-12-28
💡 一句话要点
提出基于Mamba和自适应融合的DepthMamba,提升噪声位姿下的多视角深度估计鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 多视角深度估计 深度学习 Mamba 自适应融合 噪声位姿 鲁棒性 自动驾驶
📋 核心要点
- 现有多视角深度估计方法依赖理想相机位姿,在实际应用中,噪声位姿会导致性能显著下降。
- 提出DepthMamba,采用双分支结构,分别进行单视角和多视角深度估计,并自适应融合结果。
- 在KITTI和DDAD等数据集上验证了DepthMamba的有效性,在噪声位姿下取得了有竞争力的性能。
📝 摘要(中文)
多视角深度估计在各种基准测试中取得了令人瞩目的性能。然而,目前几乎所有的多视角系统都依赖于给定的理想相机位姿,这在许多现实场景(如自动驾驶)中是不可用的。本文提出了一个新的鲁棒性基准,用于评估各种噪声位姿设置下的深度估计系统。令人惊讶的是,我们发现当前的多视角深度估计方法或单视角和多视角融合方法在给定噪声位姿设置时会失效。为了应对这一挑战,我们提出了一种双分支网络架构,该架构融合了单视角和多视角分支的深度估计结果。具体而言,我们引入Mamba作为特征提取骨干,并提出了一种基于注意力的融合方法,该方法自适应地选择两个分支中最鲁棒的估计结果。因此,所提出的方法可以在一些具有挑战性的场景(包括动态对象、无纹理区域等)中表现良好。消融研究证明了骨干网络和融合方法的有效性,而在具有挑战性的基准测试(KITTI和DDAD)上的评估实验表明,与最先进的方法相比,该方法取得了具有竞争力的性能。
🔬 方法详解
问题定义:论文旨在解决多视角深度估计在实际应用中,由于相机位姿存在噪声而导致性能下降的问题。现有的多视角深度估计方法通常依赖于精确的相机位姿,但在自动驾驶等真实场景中,相机位姿往往存在误差,这使得现有方法难以有效工作。
核心思路:论文的核心思路是利用单视角深度估计的鲁棒性和多视角深度估计的准确性,通过一个双分支网络结构,分别进行单视角和多视角深度估计,然后使用自适应融合方法,根据不同场景和位姿噪声情况,动态地选择更可靠的深度估计结果。这样可以兼顾鲁棒性和准确性,提高整体性能。
技术框架:DepthMamba包含两个主要分支:单视角深度估计分支和多视角深度估计分支。两个分支分别提取图像特征并进行深度估计。然后,使用一个基于注意力的融合模块,根据两个分支的特征和位姿信息,自适应地学习融合权重,将两个分支的深度估计结果融合起来,得到最终的深度估计结果。整个框架使用端到端的方式进行训练。
关键创新:论文的关键创新在于以下几点:1) 提出了一个双分支网络结构,结合了单视角和多视角深度估计的优点。2) 引入了Mamba作为特征提取骨干网络,Mamba在序列建模方面具有优势,可以更好地捕捉图像中的上下文信息。3) 提出了一个基于注意力的自适应融合模块,可以根据不同场景和位姿噪声情况,动态地选择更可靠的深度估计结果。
关键设计:在单视角和多视角分支中,都使用了Mamba作为特征提取骨干网络。在融合模块中,使用了注意力机制来学习融合权重。损失函数包括深度回归损失和位姿损失,用于约束深度估计的准确性和位姿估计的鲁棒性。具体的网络结构和参数设置在论文中有详细描述。
📊 实验亮点
实验结果表明,DepthMamba在KITTI和DDAD等具有挑战性的数据集上取得了有竞争力的性能。特别是在噪声位姿情况下,DepthMamba的性能明显优于现有的多视角深度估计方法。消融实验证明了Mamba骨干网络和自适应融合模块的有效性,验证了论文提出的方法的优越性。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、三维重建等领域。在这些领域中,相机位姿往往存在误差,因此需要鲁棒的深度估计方法。DepthMamba可以提高这些应用在实际场景中的可靠性和安全性,并为未来的三维感知技术发展提供新的思路。
📄 摘要(原文)
Multi-view depth estimation has achieved impressive performance over various benchmarks. However, almost all current multi-view systems rely on given ideal camera poses, which are unavailable in many real-world scenarios, such as autonomous driving. In this work, we propose a new robustness benchmark to evaluate the depth estimation system under various noisy pose settings. Surprisingly, we find current multi-view depth estimation methods or single-view and multi-view fusion methods will fail when given noisy pose settings. To tackle this challenge, we propose a two-branch network architecture which fuses the depth estimation results of single-view and multi-view branch. In specific, we introduced mamba to serve as feature extraction backbone and propose an attention-based fusion methods which adaptively select the most robust estimation results between the two branches. Thus, the proposed method can perform well on some challenging scenes including dynamic objects, texture-less regions, etc. Ablation studies prove the effectiveness of the backbone and fusion method, while evaluation experiments on challenging benchmarks (KITTI and DDAD) show that the proposed method achieves a competitive performance compared to the state-of-the-art methods.