MambaSOD: Dual Mamba-Driven Cross-Modal Fusion Network for RGB-D Salient Object Detection

📄 arXiv: 2410.15015v1 📥 PDF

作者: Yue Zhan, Zhihong Zeng, Haijun Liu, Xiaoheng Tan, Yinli Tian

分类: cs.CV

发布日期: 2024-10-19

🔗 代码/项目: GITHUB


💡 一句话要点

提出MambaSOD,利用双Mamba驱动的跨模态融合网络解决RGB-D显著性目标检测问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: RGB-D显著性目标检测 Mamba 跨模态融合 长程依赖 深度学习

📋 核心要点

  1. 现有RGB-D显著性目标检测方法依赖CNN或Transformer,前者忽略长程依赖,后者计算复杂度高。
  2. MambaSOD采用双Mamba驱动的特征提取器和跨模态融合Mamba,以线性复杂度建模长程依赖并融合RGB-D信息。
  3. 在六个数据集上的实验表明,MambaSOD显著优于16种最先进的RGB-D显著性目标检测模型。

📝 摘要(中文)

RGB-D显著性目标检测(SOD)旨在精确地定位图像中最显著的视觉区域。传统的深度模型严重依赖CNN提取器,忽略了长程上下文依赖关系。后续基于Transformer的模型在一定程度上解决了这个问题,但引入了较高的计算复杂度。此外,结合来自深度图的空间信息已被证明对该任务有效。该问题的一个主要挑战是如何有效地融合来自RGB和深度的互补信息。本文提出了一种双Mamba驱动的跨模态融合网络MambaSOD用于RGB-D SOD。具体来说,我们首先采用双Mamba驱动的特征提取器,分别对RGB和深度信息进行建模,以线性复杂度对多模态输入中的长程依赖关系进行建模。然后,我们设计了一个跨模态融合Mamba,用于捕获的多模态特征,以充分利用RGB和深度特征之间的互补信息。据我们所知,这项工作是首次尝试探索Mamba在RGB-D SOD任务中的潜力,提供了一个新的视角。在六个主流数据集上进行的大量实验表明,我们的方法优于十六种最先进的RGB-D SOD模型。

🔬 方法详解

问题定义:RGB-D显著性目标检测旨在精确识别图像中最引人注目的区域。现有方法,特别是基于CNN的方法,难以捕捉长距离上下文依赖关系。而基于Transformer的方法虽然能捕捉长距离依赖,但计算复杂度较高,限制了其应用。此外,如何有效融合RGB图像和深度图的互补信息也是一个挑战。

核心思路:MambaSOD的核心思路是利用Mamba架构的线性复杂度优势,同时建模RGB和深度信息中的长程依赖关系,并设计专门的跨模态融合模块来有效结合这两种模态的信息。Mamba架构的序列选择机制使其能够自适应地关注重要信息,从而提高检测精度。

技术框架:MambaSOD的整体架构包含以下几个主要模块:1) 双Mamba驱动的特征提取器:分别提取RGB和深度图像的特征,利用Mamba模块建模长程依赖。2) 跨模态融合Mamba:将提取的RGB和深度特征进行融合,充分利用两种模态的互补信息。3) 显著性预测模块:基于融合后的特征预测显著性图。整个流程旨在高效且准确地定位显著性目标。

关键创新:该论文的关键创新在于首次将Mamba架构引入RGB-D显著性目标检测任务中,并设计了双Mamba驱动的特征提取器和跨模态融合Mamba。与传统的CNN和Transformer方法相比,MambaSOD在计算复杂度和性能之间取得了更好的平衡。

关键设计:双Mamba驱动的特征提取器采用并行的Mamba模块处理RGB和深度信息,具体层数和通道数等参数设置未知。跨模态融合Mamba的设计细节,例如融合方式(concat, attention等)和Mamba模块的具体配置未知。损失函数可能采用二元交叉熵损失或IoU损失等,具体选择未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MambaSOD在六个主流RGB-D显著性目标检测数据集上进行了评估,实验结果表明,该方法在多个指标上均优于16种最先进的RGB-D SOD模型。具体的性能提升幅度未知,但论文强调了其优越性,表明MambaSOD在RGB-D显著性目标检测任务中具有显著的优势。

🎯 应用场景

MambaSOD在机器人视觉、自动驾驶、图像编辑、视频监控等领域具有广泛的应用前景。例如,在自动驾驶中,可以利用该技术快速准确地识别行人、车辆等显著目标,提高驾驶安全性。在图像编辑中,可以自动提取图像中的显著区域,方便用户进行编辑和处理。

📄 摘要(原文)

The purpose of RGB-D Salient Object Detection (SOD) is to pinpoint the most visually conspicuous areas within images accurately. While conventional deep models heavily rely on CNN extractors and overlook the long-range contextual dependencies, subsequent transformer-based models have addressed the issue to some extent but introduce high computational complexity. Moreover, incorporating spatial information from depth maps has been proven effective for this task. A primary challenge of this issue is how to fuse the complementary information from RGB and depth effectively. In this paper, we propose a dual Mamba-driven cross-modal fusion network for RGB-D SOD, named MambaSOD. Specifically, we first employ a dual Mamba-driven feature extractor for both RGB and depth to model the long-range dependencies in multiple modality inputs with linear complexity. Then, we design a cross-modal fusion Mamba for the captured multi-modal features to fully utilize the complementary information between the RGB and depth features. To the best of our knowledge, this work is the first attempt to explore the potential of the Mamba in the RGB-D SOD task, offering a novel perspective. Numerous experiments conducted on six prevailing datasets demonstrate our method's superiority over sixteen state-of-the-art RGB-D SOD models. The source code will be released at https://github.com/YueZhan721/MambaSOD.