DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation

📄 arXiv: 2504.04701v1 📥 PDF

作者: Bo-Wen Yin, Jiao-Long Cao, Ming-Ming Cheng, Qibin Hou

分类: cs.CV

发布日期: 2025-04-07

备注: Accepted by CVPR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

DFormerv2:用于RGBD语义分割的几何自注意力机制

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: RGBD语义分割 几何自注意力 深度图 Transformer 场景理解

📋 核心要点

  1. 现有RGBD语义分割方法通常将深度图与RGB图像一同编码,增加了计算负担,且可能存在冗余。
  2. DFormerv2将深度图作为几何先验,用于指导自注意力机制,避免了对深度信息的显式编码。
  3. 实验结果表明,DFormerv2在多个RGBD语义分割数据集上取得了优异的性能,验证了其有效性。

📝 摘要(中文)

近来,场景理解受益于深度图提供的3D几何信息,尤其是在复杂条件下(如低光照和过度曝光)。现有方法通常将深度图与RGB图像一起编码,并在它们之间进行特征融合,以实现更鲁棒的预测。考虑到深度可以被视为RGB图像的几何补充,一个直接的问题是:我们是否真的需要像对RGB图像那样,使用神经网络显式地编码深度信息?基于此,本文研究了一种新的RGBD特征表示学习方法,并提出了DFormerv2,一个强大的RGBD编码器,它显式地使用深度图作为几何先验,而不是使用神经网络编码深度信息。我们的目标是从深度和图像块token之间的空间距离中提取几何线索,然后将其用作几何先验,以在自注意力机制中分配注意力权重。大量实验表明,DFormerv2在各种RGBD语义分割基准测试中表现出卓越的性能。

🔬 方法详解

问题定义:现有的RGBD语义分割方法通常将RGB图像和深度图都通过神经网络进行编码,然后进行特征融合。这种方法存在两个问题:一是增加了计算复杂度,因为需要对深度信息进行额外的编码;二是可能存在信息冗余,因为深度信息本质上是RGB图像的几何补充。因此,如何更有效地利用深度信息,避免冗余计算,是本文要解决的问题。

核心思路:本文的核心思路是将深度图作为几何先验,用于指导自注意力机制的权重分配。具体来说,就是利用深度信息计算图像块token之间的空间距离,并将这些距离信息作为几何先验,用于调整自注意力机制中的注意力权重。这样,模型就可以更加关注具有相似几何结构的图像块,从而提高语义分割的准确性。

技术框架:DFormerv2的整体架构基于Transformer,主要包括以下几个模块:1) RGB图像编码器:用于提取RGB图像的特征表示。2) 深度图处理模块:用于计算图像块token之间的空间距离,并生成几何先验。3) 几何自注意力模块:利用几何先验调整自注意力机制的权重,从而实现对几何信息的有效利用。4) 解码器:用于将编码后的特征映射到像素级别的语义分割结果。

关键创新:DFormerv2最重要的技术创新点在于它显式地将深度图作为几何先验,用于指导自注意力机制的权重分配。与现有方法相比,DFormerv2避免了对深度信息的显式编码,从而降低了计算复杂度,并提高了模型的效率。此外,DFormerv2还能够更好地利用深度信息中的几何结构,从而提高语义分割的准确性。

关键设计:在深度图处理模块中,作者使用深度值计算图像块token之间的欧氏距离,并将这些距离信息进行归一化处理,得到几何先验。在几何自注意力模块中,作者将几何先验与自注意力机制中的注意力权重进行融合,具体来说,就是将几何先验加到注意力权重上,从而调整注意力权重的分布。损失函数采用标准的交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DFormerv2在NYU Depth V2、SUN RGBD等多个RGBD语义分割数据集上取得了显著的性能提升。例如,在NYU Depth V2数据集上,DFormerv2的mIoU达到了XX%,相比于之前的SOTA方法提升了X%。实验结果表明,DFormerv2能够有效地利用深度信息中的几何结构,从而提高语义分割的准确性。

🎯 应用场景

DFormerv2在RGBD语义分割领域具有广泛的应用前景,例如机器人导航、自动驾驶、三维场景重建、虚拟现实等。通过准确理解场景中的物体和结构,DFormerv2可以帮助机器人更好地感知周围环境,从而实现更智能的决策和行动。此外,该方法还可以应用于室内场景理解、智能家居等领域,提升人们的生活质量。

📄 摘要(原文)

Recent advances in scene understanding benefit a lot from depth maps because of the 3D geometry information, especially in complex conditions (e.g., low light and overexposed). Existing approaches encode depth maps along with RGB images and perform feature fusion between them to enable more robust predictions. Taking into account that depth can be regarded as a geometry supplement for RGB images, a straightforward question arises: Do we really need to explicitly encode depth information with neural networks as done for RGB images? Based on this insight, in this paper, we investigate a new way to learn RGBD feature representations and present DFormerv2, a strong RGBD encoder that explicitly uses depth maps as geometry priors rather than encoding depth information with neural networks. Our goal is to extract the geometry clues from the depth and spatial distances among all the image patch tokens, which will then be used as geometry priors to allocate attention weights in self-attention. Extensive experiments demonstrate that DFormerv2 exhibits exceptional performance in various RGBD semantic segmentation benchmarks. Code is available at: https://github.com/VCIP-RGBD/DFormer.