MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors

📄 arXiv: 2410.19590v2 📥 PDF

作者: Fanqi Pu, Yifan Wang, Jiru Deng, Wenming Yang

分类: cs.CV

发布日期: 2024-10-25 (更新: 2025-03-12)

🔗 代码/项目: GITHUB


💡 一句话要点

MonoDGP:利用解耦查询和几何误差先验的单目3D目标检测

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目3D目标检测 几何误差先验 解耦查询 Transformer 深度估计 透视投影 区域分割

📋 核心要点

  1. 现有单目3D检测方法依赖透视投影,但物体表面深度误差导致几何深度先验失效,影响检测精度。
  2. MonoDGP利用透视不变的几何误差修正投影公式,并解耦2D和3D解码器,提升深度估计的准确性。
  3. 实验表明,MonoDGP在KITTI数据集上取得了SOTA性能,无需额外数据,验证了方法的有效性。

📝 摘要(中文)

透视投影被广泛应用于单目3D目标检测方法中,它利用2D边界框和3D物体尺寸引入几何先验,以减少深度估计的不确定性。然而,由于源于物体视觉表面的深度误差,边界框的高度通常无法代表实际的投影中心高度,从而削弱了几何深度的有效性。直接预测投影高度不可避免地会导致2D先验的丢失,而具有复杂分支的多深度预测并不能充分利用几何深度。本文提出了一种基于Transformer的单目3D目标检测方法MonoDGP,该方法采用透视不变的几何误差来修正投影公式。我们还尝试系统地讨论和解释几何误差背后的机制和有效性,这是一种简单但有效的多深度预测替代方案。此外,MonoDGP解耦了深度引导的解码器,并构建了一个仅依赖于视觉特征的2D解码器,从而提供2D先验并在不受3D检测干扰的情况下初始化对象查询。为了进一步优化和微调Transformer解码器的输入tokens,我们还引入了一个区域分割头(RSH),用于生成增强的特征和分割嵌入。我们的单目方法在没有额外数据的情况下,在KITTI基准测试上表现出最先进的性能。

🔬 方法详解

问题定义:单目3D目标检测旨在仅使用单张图像预测场景中物体的3D位置、尺寸和方向。现有方法通常依赖于透视投影将3D信息投影到2D图像上,并利用2D边界框和3D物体尺寸作为几何先验来辅助深度估计。然而,由于物体视觉表面的深度误差,2D边界框的高度往往不能准确反映3D物体投影后的中心高度,导致几何先验失效,影响深度估计的准确性。

核心思路:MonoDGP的核心思路是利用透视不变的几何误差来修正投影公式,从而更准确地估计深度。同时,为了更好地利用2D先验信息,MonoDGP解耦了深度引导的3D解码器和仅依赖视觉特征的2D解码器,避免3D检测对2D先验的干扰。

技术框架:MonoDGP的整体框架包括以下几个主要模块:1) 图像输入:输入单张RGB图像。2) 特征提取:使用CNN backbone(如ResNet)提取图像的视觉特征。3) Transformer解码器:包含一个深度引导的3D解码器和一个解耦的2D解码器。3D解码器负责预测3D bounding box参数,2D解码器负责预测2D bounding box参数。4) 区域分割头(RSH):用于生成增强的特征和分割嵌入,以优化和微调Transformer解码器的输入tokens。5) 输出:输出3D bounding box参数(位置、尺寸、方向)和2D bounding box参数。

关键创新:MonoDGP的关键创新点在于:1) 提出了一种基于透视不变几何误差的深度估计方法,能够更准确地利用几何先验信息。2) 解耦了2D和3D解码器,避免了3D检测对2D先验的干扰,从而更好地利用了2D信息。3) 引入了区域分割头(RSH),用于生成增强的特征和分割嵌入,进一步提升了检测性能。与现有方法相比,MonoDGP能够更准确地估计深度,并更好地利用2D和3D信息。

关键设计:1) 几何误差修正:使用透视不变的几何误差来修正投影公式,具体而言,通过学习一个几何误差偏移量来调整投影中心高度。2) 解耦解码器:2D解码器仅依赖于视觉特征,而3D解码器则利用深度引导的特征。3) 区域分割头(RSH):RSH通过预测像素级别的分割掩码来增强特征表示,并生成分割嵌入作为Transformer解码器的输入。4) 损失函数:使用标准的3D目标检测损失函数,包括位置损失、尺寸损失、方向损失等。同时,还使用了2D目标检测损失函数来优化2D解码器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MonoDGP在KITTI数据集上取得了state-of-the-art的性能,无需额外数据。与现有方法相比,MonoDGP在3D目标检测的各项指标上均有显著提升,尤其是在深度估计的准确性方面。实验结果表明,MonoDGP能够有效地利用几何先验信息,并解耦2D和3D信息,从而提升检测性能。

🎯 应用场景

MonoDGP在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。它可以帮助车辆或机器人更好地理解周围环境,从而实现更安全、更智能的导航和决策。此外,该方法还可以应用于增强现实应用中,例如将虚拟物体准确地放置在真实场景中。

📄 摘要(原文)

Perspective projection has been extensively utilized in monocular 3D object detection methods. It introduces geometric priors from 2D bounding boxes and 3D object dimensions to reduce the uncertainty of depth estimation. However, due to depth errors originating from the object's visual surface, the height of the bounding box often fails to represent the actual projected central height, which undermines the effectiveness of geometric depth. Direct prediction for the projected height unavoidably results in a loss of 2D priors, while multi-depth prediction with complex branches does not fully leverage geometric depth. This paper presents a Transformer-based monocular 3D object detection method called MonoDGP, which adopts perspective-invariant geometry errors to modify the projection formula. We also try to systematically discuss and explain the mechanisms and efficacy behind geometry errors, which serve as a simple but effective alternative to multi-depth prediction. Additionally, MonoDGP decouples the depth-guided decoder and constructs a 2D decoder only dependent on visual features, providing 2D priors and initializing object queries without the disturbance of 3D detection. To further optimize and fine-tune input tokens of the transformer decoder, we also introduce a Region Segment Head (RSH) that generates enhanced features and segment embeddings. Our monocular method demonstrates state-of-the-art performance on the KITTI benchmark without extra data. Code is available at https://github.com/PuFanqi23/MonoDGP.