Depth Matters: Exploring Deep Interactions of RGB-D for Semantic Segmentation in Traffic Scenes

📄 arXiv: 2409.07995v2 📥 PDF

作者: Siyu Chen, Ting Han, Changshe Zhang, Weiquan Liu, Jinhe Su, Zongyue Wang, Guorong Cai

分类: cs.CV

发布日期: 2024-09-12 (更新: 2025-07-01)

备注: Accepted by IROS 2025


💡 一句话要点

提出深度交互金字塔Transformer,解决交通场景语义分割中深度信息利用不足问题

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: RGB-D语义分割 深度学习 Transformer 注意力机制 自动驾驶

📋 核心要点

  1. 现有方法在交通场景语义分割中对深度图的空间属性利用不足,导致注意力机制出现偏移,影响分割精度。
  2. 提出深度交互金字塔Transformer (DiPFormer),通过深度空间感知优化和深度线性交叉注意力,有效利用深度信息。
  3. 实验结果表明,DiPFormer在KITTI和Cityscapes数据集上均取得了state-of-the-art的性能,显著提升了道路检测和语义分割的精度。

📝 摘要(中文)

RGB-D数据已逐渐成为辅助驾驶中理解复杂场景的关键数据源。然而,现有研究对深度图的内在空间属性关注不足,这显著影响了注意力表示,导致由注意力偏移问题引起的预测错误。为此,我们提出了一种新的可学习的深度交互金字塔Transformer (DiPFormer),以探索深度的有效性。首先,我们引入深度空间感知优化(Depth SAO)作为偏移来表示真实世界的空间关系。其次,通过深度线性交叉注意力(Depth LCA)学习RGB-D特征空间中的相似性,以明确像素级的空间差异。最后,利用MLP解码器有效地融合多尺度特征,以满足实时性要求。综合实验表明,所提出的DiPFormer显著解决了道路检测(+7.5%)和语义分割(+4.9% / +1.5%)任务中的注意力不对齐问题。DiPFormer在KITTI (KITTI道路上97.57% F-score,KITTI-360上68.74% mIoU)和Cityscapes (83.4% mIoU)数据集上实现了最先进的性能。

🔬 方法详解

问题定义:现有基于RGB-D的语义分割方法未能充分利用深度图的内在空间属性,导致注意力机制在特征表示时出现偏移,从而影响最终的分割精度。尤其是在交通场景中,精确的语义分割对于自动驾驶至关重要,而深度信息的有效利用是提升分割性能的关键。

核心思路:论文的核心思路是通过显式地建模深度图的空间关系,来优化注意力机制,从而提升RGB-D语义分割的性能。具体来说,通过引入深度空间感知优化(Depth SAO)来表示真实世界的空间关系,并利用深度线性交叉注意力(Depth LCA)来学习RGB-D特征空间中的相似性,从而明确像素级的空间差异。

技术框架:DiPFormer的整体架构是一个金字塔Transformer结构,包含以下几个主要模块:1) 特征提取模块:分别提取RGB和Depth图像的特征;2) 深度空间感知优化(Depth SAO)模块:利用深度信息优化空间关系;3) 深度线性交叉注意力(Depth LCA)模块:学习RGB-D特征的相似性;4) 多层感知机(MLP)解码器:融合多尺度特征并进行语义分割。

关键创新:论文的关键创新在于提出了Depth SAO和Depth LCA两个模块,用于显式地建模深度信息。Depth SAO通过学习深度相关的偏移量来优化空间关系,而Depth LCA则通过线性交叉注意力机制来学习RGB-D特征的相似性。与现有方法相比,DiPFormer能够更有效地利用深度信息,从而提升语义分割的性能。

关键设计:Depth SAO模块通过学习深度相关的偏移量来调整注意力机制的采样位置。Depth LCA模块使用线性注意力机制来降低计算复杂度,同时学习RGB-D特征的相似性。MLP解码器采用多尺度特征融合的方式,以提高分割精度。损失函数方面,使用了交叉熵损失函数来训练模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiPFormer在KITTI道路检测任务上取得了97.57%的F-score,在KITTI-360语义分割任务上取得了68.74%的mIoU,在Cityscapes数据集上取得了83.4%的mIoU,均达到了state-of-the-art的水平。与现有方法相比,DiPFormer在道路检测任务上提升了7.5%,在语义分割任务上提升了4.9%/1.5%,显著提升了性能。

🎯 应用场景

该研究成果可应用于自动驾驶、辅助驾驶等领域,提升车辆对周围环境的感知能力,从而提高驾驶安全性。此外,该方法也可应用于机器人导航、三维重建等领域,具有广泛的应用前景和实际价值。未来,可以进一步探索如何将该方法应用于更复杂的场景和任务中。

📄 摘要(原文)

RGB-D has gradually become a crucial data source for understanding complex scenes in assisted driving. However, existing studies have paid insufficient attention to the intrinsic spatial properties of depth maps. This oversight significantly impacts the attention representation, leading to prediction errors caused by attention shift issues. To this end, we propose a novel learnable Depth interaction Pyramid Transformer (DiPFormer) to explore the effectiveness of depth. Firstly, we introduce Depth Spatial-Aware Optimization (Depth SAO) as offset to represent real-world spatial relationships. Secondly, the similarity in the feature space of RGB-D is learned by Depth Linear Cross-Attention (Depth LCA) to clarify spatial differences at the pixel level. Finally, an MLP Decoder is utilized to effectively fuse multi-scale features for meeting real-time requirements. Comprehensive experiments demonstrate that the proposed DiPFormer significantly addresses the issue of attention misalignment in both road detection (+7.5%) and semantic segmentation (+4.9% / +1.5%) tasks. DiPFormer achieves state-of-the-art performance on the KITTI (97.57% F-score on KITTI road and 68.74% mIoU on KITTI-360) and Cityscapes (83.4% mIoU) datasets.