Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective

📄 arXiv: 2505.04758v1 📥 PDF

作者: Songsong Duan, Xi Yang, Nannan Wang, Xinbo Gao

分类: cs.CV

发布日期: 2025-05-07

备注: Accepted by TIP 2025


💡 一句话要点

提出速度-精度权衡网络SATNet,用于轻量级RGB-D显著性目标检测。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: RGB-D显著性目标检测 轻量级网络 速度-精度权衡 模态融合 深度图质量

📋 核心要点

  1. 现有RGB-D显著性目标检测方法难以兼顾高精度和高效率,大型网络精度高但效率低,轻量网络效率高但精度不足。
  2. 提出SATNet,从深度质量提升、模态解耦融合、双向信息表示三个角度入手,平衡速度与精度。
  3. 实验表明,SATNet在多个RGB-D数据集上超越了SOTA的CNN模型,实现了5.2M参数和415 FPS的轻量级框架。

📝 摘要(中文)

当前RGB-D显著性目标检测方法通常利用大型骨干网络来提高精度,但牺牲了效率。同时,一些现有的轻量级方法难以实现高精度性能。为了平衡效率和性能,我们从三个基本角度提出了一个用于轻量级RGB-D SOD的速度-精度权衡网络(SATNet):深度质量、模态融合和特征表示。关于深度质量,我们引入了Depth Anything模型来生成高质量的深度图,有效地缓解了当前数据集中的多模态差距。对于模态融合,我们提出了一个解耦注意力模块(DAM)来探索模态内部和模态之间的连贯性。在这里,多模态特征被解耦成双视图特征向量,以投射特征图的可区分信息。对于特征表示,我们开发了一个具有双向反向框架的双信息表示模块(DIRM),以扩大轻量级骨干网络生成的有限特征空间。DIRM对纹理特征和显著性特征进行建模,以丰富特征空间,并采用双向预测头,通过双向反向传播来优化其参数。最后,我们在解码器中设计了一个双特征聚合模块(DFAM)来聚合纹理和显著性特征。在五个公共RGB-D SOD数据集上的大量实验表明,所提出的SATNet优于最先进的(SOTA)基于CNN的重量级模型,并实现了一个具有5.2M参数和415 FPS的轻量级框架。

🔬 方法详解

问题定义:现有RGB-D显著性目标检测方法面临精度和效率难以兼顾的问题。大型网络计算成本高,难以部署;轻量级网络精度不足,无法满足实际应用需求。现有方法在深度质量、模态融合和特征表示方面存在不足,导致性能瓶颈。

核心思路:论文的核心思路是通过速度-精度权衡,设计一个轻量级的网络结构,同时保证较高的检测精度。具体而言,通过提升深度图质量、解耦模态信息、增强特征表示能力等手段,在有限的计算资源下,尽可能地提高模型的性能。

技术框架:SATNet的整体架构包括以下几个主要模块:1) Depth Anything Model:用于生成高质量的深度图,缓解多模态数据之间的差距。2) Decoupled Attention Module (DAM):用于模态融合,探索模态内部和模态之间的连贯性。3) Dual Information Representation Module (DIRM):用于特征表示,通过双向反向框架扩大特征空间。4) Dual Feature Aggregation Module (DFAM):在解码器中聚合纹理和显著性特征。整个网络采用编码器-解码器结构。

关键创新:论文的关键创新点在于:1) 引入Depth Anything模型提升深度图质量。2) 提出解耦注意力模块DAM,有效融合RGB和深度信息。3) 设计双信息表示模块DIRM,增强轻量级网络的特征表达能力。4) 采用双向预测头,通过双向反向传播优化网络参数。这些创新共同提升了网络的性能和效率。

关键设计:Depth Anything Model采用预训练模型,无需额外训练。DAM将多模态特征解耦为双视图特征向量,并使用注意力机制进行融合。DIRM采用双向反向框架,分别提取纹理和显著性特征,并使用两个预测头进行监督。DFAM在解码器中聚合纹理和显著性特征,提升最终的预测精度。损失函数包括二元交叉熵损失和IoU损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SATNet在五个公共RGB-D SOD数据集上取得了优异的性能,超越了SOTA的CNN模型。该方法在保持较高精度的同时,实现了5.2M参数和415 FPS的轻量级框架,显著提升了计算效率。与现有方法相比,SATNet在精度和效率之间取得了更好的平衡。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、视频监控、图像编辑等领域。轻量级的设计使得该方法更容易部署在移动设备和嵌入式系统中,具有广阔的应用前景。未来可以进一步探索该方法在其他视觉任务中的应用,例如目标跟踪、场景理解等。

📄 摘要(原文)

Current RGB-D methods usually leverage large-scale backbones to improve accuracy but sacrifice efficiency. Meanwhile, several existing lightweight methods are difficult to achieve high-precision performance. To balance the efficiency and performance, we propose a Speed-Accuracy Tradeoff Network (SATNet) for Lightweight RGB-D SOD from three fundamental perspectives: depth quality, modality fusion, and feature representation. Concerning depth quality, we introduce the Depth Anything Model to generate high-quality depth maps,which effectively alleviates the multi-modal gaps in the current datasets. For modality fusion, we propose a Decoupled Attention Module (DAM) to explore the consistency within and between modalities. Here, the multi-modal features are decoupled into dual-view feature vectors to project discriminable information of feature maps. For feature representation, we develop a Dual Information Representation Module (DIRM) with a bi-directional inverted framework to enlarge the limited feature space generated by the lightweight backbones. DIRM models texture features and saliency features to enrich feature space, and employ two-way prediction heads to optimal its parameters through a bi-directional backpropagation. Finally, we design a Dual Feature Aggregation Module (DFAM) in the decoder to aggregate texture and saliency features. Extensive experiments on five public RGB-D SOD datasets indicate that the proposed SATNet excels state-of-the-art (SOTA) CNN-based heavyweight models and achieves a lightweight framework with 5.2 M parameters and 415 FPS.