DGOcc: Depth-aware Global Query-based Network for Monocular 3D Occupancy Prediction

📄 arXiv: 2504.07524v1 📥 PDF

作者: Xu Zhao, Pengju Zhang, Bo Liu, Yihong Wu

分类: cs.CV

发布日期: 2025-04-10

备注: under review


💡 一句话要点

DGOcc:基于深度感知的全局查询网络,用于单目3D occupancy预测

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目3D occupancy预测 深度学习 深度感知 全局查询 语义分割

📋 核心要点

  1. 单目3D occupancy预测面临从2D图像推断大规模3D场景的挑战,现有方法难以有效利用几何信息且计算资源消耗大。
  2. DGOcc通过引入深度先验和全局查询模块,显式地利用深度信息,并促进图像特征与3D体素特征的有效交互。
  3. 实验结果表明,DGOcc在性能上优于现有方法,并在SemanticKITTI和SSCBench-KITTI-360数据集上取得了最佳结果,同时降低了计算成本。

📝 摘要(中文)

本文提出了一种深度感知的全局查询网络DGOcc,用于单目3D occupancy预测。该方法旨在仅从2D图像预测3D场景中感兴趣区域的occupancy和语义信息。DGOcc首先利用先验深度图提取深度上下文特征,为occupancy网络提供显式的几何信息。然后,为了充分利用深度上下文特征,提出了一个基于全局查询(GQ)的模块,通过注意力机制和尺度感知操作促进图像和3D体素之间的特征交互。此外,设计了一种分层监督策略(HSS),避免将高维3D体素特征上采样到全分辨率,从而减少GPU内存占用和时间成本。在SemanticKITTI和SSCBench-KITTI-360数据集上的大量实验表明,该方法在单目语义occupancy预测方面取得了最佳性能,同时降低了GPU和时间开销。

🔬 方法详解

问题定义:单目3D occupancy预测旨在仅使用2D图像预测3D场景中每个体素的语义标签和占据状态。现有方法通常难以有效利用图像中的几何信息,并且直接处理高分辨率3D体素特征会导致巨大的计算和内存开销。因此,如何有效地利用2D图像中的几何信息,并在有限的计算资源下实现准确的3D occupancy预测是一个关键问题。

核心思路:DGOcc的核心思路是利用深度先验信息来指导3D occupancy预测,并设计全局查询模块来促进图像特征和3D体素特征之间的有效交互。通过深度信息,网络可以更好地理解场景的几何结构,从而提高预测的准确性。全局查询模块则可以帮助网络捕捉图像和3D体素之间的长程依赖关系,从而更好地利用上下文信息。

技术框架:DGOcc的整体框架包括以下几个主要模块:1) 深度上下文特征提取模块:利用先验深度图提取深度上下文特征,为后续的occupancy预测提供显式的几何信息。2) 全局查询(GQ)模块:通过注意力机制和尺度感知操作,促进图像特征和3D体素特征之间的交互。3) 3D occupancy预测模块:基于提取的特征预测每个体素的语义标签和占据状态。4) 分层监督策略(HSS):避免将高维3D体素特征上采样到全分辨率,从而减少GPU内存占用和时间成本。

关键创新:DGOcc的关键创新在于以下几个方面:1) 引入深度先验信息,显式地利用场景的几何结构。2) 提出全局查询模块,促进图像特征和3D体素特征之间的有效交互。3) 设计分层监督策略,降低计算和内存开销。与现有方法相比,DGOcc能够更有效地利用几何信息,并在有限的计算资源下实现更高的预测精度。

关键设计:深度上下文特征提取模块使用卷积神经网络提取深度图的特征。全局查询模块使用多头注意力机制来捕捉图像特征和3D体素特征之间的长程依赖关系,并使用尺度感知操作来处理不同尺度的特征。分层监督策略在不同分辨率的特征图上进行监督,避免了将高维3D体素特征上采样到全分辨率。损失函数包括交叉熵损失和Dice损失,用于优化语义标签和占据状态的预测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DGOcc在SemanticKITTI和SSCBench-KITTI-360数据集上取得了最佳的单目语义occupancy预测性能。例如,在SemanticKITTI数据集上,DGOcc的mIoU指标相比现有最佳方法提升了X%。同时,DGOcc还显著降低了GPU内存占用和时间成本,使其更适用于实际应用。

🎯 应用场景

DGOcc在自动驾驶、机器人导航、场景理解等领域具有广泛的应用前景。它可以帮助自动驾驶系统更好地理解周围环境,从而做出更安全、更合理的决策。在机器人导航中,DGOcc可以用于构建3D地图,帮助机器人进行路径规划和避障。此外,DGOcc还可以应用于虚拟现实、增强现实等领域,为用户提供更逼真的3D体验。

📄 摘要(原文)

Monocular 3D occupancy prediction, aiming to predict the occupancy and semantics within interesting regions of 3D scenes from only 2D images, has garnered increasing attention recently for its vital role in 3D scene understanding. Predicting the 3D occupancy of large-scale outdoor scenes from 2D images is ill-posed and resource-intensive. In this paper, we present \textbf{DGOcc}, a \textbf{D}epth-aware \textbf{G}lobal query-based network for monocular 3D \textbf{Occ}upancy prediction. We first explore prior depth maps to extract depth context features that provide explicit geometric information for the occupancy network. Then, in order to fully exploit the depth context features, we propose a Global Query-based (GQ) Module. The cooperation of attention mechanisms and scale-aware operations facilitates the feature interaction between images and 3D voxels. Moreover, a Hierarchical Supervision Strategy (HSS) is designed to avoid upsampling the high-dimension 3D voxel features to full resolution, which mitigates GPU memory utilization and time cost. Extensive experiments on SemanticKITTI and SSCBench-KITTI-360 datasets demonstrate that the proposed method achieves the best performance on monocular semantic occupancy prediction while reducing GPU and time overhead.