GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting

📄 arXiv: 2408.11447v4 📥 PDF

作者: Wanshui Gan, Fang Liu, Hongbin Xu, Ningkai Mo, Naoto Yokoya

分类: cs.CV

发布日期: 2024-08-21 (更新: 2025-07-14)

备注: Project page: https://ganwanshui.github.io/GaussianOcc/

🔗 代码/项目: GITHUB


💡 一句话要点

GaussianOcc:利用高斯溅射实现全自监督高效的3D Occupancy估计

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D Occupancy估计 高斯溅射 自监督学习 环视感知 场景理解

📋 核心要点

  1. 现有自监督3D Occupancy估计方法依赖于传感器提供的真实6D位姿,限制了其应用场景。
  2. GaussianOcc利用高斯溅射的快速渲染特性,通过GSP和GSV模块实现全自监督的3D Occupancy估计。
  3. 实验结果表明,GaussianOcc在保持竞争力的性能的同时,显著降低了计算成本,训练速度提升2.7倍,渲染速度提升5倍。

📝 摘要(中文)

本文提出了一种名为GaussianOcc的系统方法,该方法探索了高斯溅射在全自监督和高效的环视3D Occupancy估计中的两种用途。首先,传统的自监督3D Occupancy估计方法在训练期间仍然需要来自传感器的真实6D位姿。为了解决这个限制,我们提出了用于投影的高斯溅射(GSP)模块,以从相邻视图投影为全自监督训练提供精确的尺度信息。此外,现有方法依赖于体渲染来使用2D信号(深度图、语义图)进行最终的3D体素表示学习,这既耗时又效率低下。我们提出了来自体素空间的高斯溅射(GSV),以利用高斯溅射的快速渲染特性。因此,所提出的GaussianOcc方法能够以较低的计算成本(训练速度提高2.7倍,渲染速度提高5倍)实现具有竞争力的全自监督(无真实位姿)3D Occupancy估计。相关代码可在https://github.com/GANWANSHUI/GaussianOcc.git中找到。

🔬 方法详解

问题定义:现有自监督3D Occupancy估计方法依赖于昂贵的传感器提供的真实6D位姿,限制了其在缺乏精确位姿信息的场景中的应用。此外,现有方法通常采用体渲染进行3D体素表示学习,计算成本高昂,效率低下。

核心思路:GaussianOcc的核心思路是利用高斯溅射(Gaussian Splatting)的快速渲染特性,设计两个关键模块:GSP(Gaussian Splatting for Projection)和GSV(Gaussian Splatting from Voxel space)。GSP用于提供精确的尺度信息,实现全自监督训练;GSV用于加速3D体素表示的渲染过程。

技术框架:GaussianOcc的整体框架包含以下几个主要步骤:1) 使用GSP模块从相邻视图投影中获取尺度信息,实现全自监督训练。2) 利用2D信号(深度图、语义图)进行特征提取。3) 将提取的特征输入到3D体素空间中。4) 使用GSV模块从体素空间进行高斯溅射渲染,生成最终的3D Occupancy估计结果。

关键创新:GaussianOcc的关键创新在于:1) 提出了GSP模块,实现了完全不依赖真实位姿的全自监督训练。2) 提出了GSV模块,利用高斯溅射加速了3D体素表示的渲染过程,显著降低了计算成本。3) 将高斯溅射技术应用于3D Occupancy估计任务,探索了其在该领域的潜力。

关键设计:GSP模块的关键设计在于利用相邻视图的投影关系,通过优化高斯溅射参数来估计尺度信息。GSV模块的关键设计在于将3D体素空间转换为高斯溅射表示,并利用高斯溅射的快速渲染算法进行渲染。损失函数的设计包括Occupancy预测损失和几何一致性损失,用于约束Occupancy预测的准确性和几何结构的合理性。具体的网络结构细节和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GaussianOcc在全自监督3D Occupancy估计任务上取得了显著的性能提升,并且大幅降低了计算成本。实验结果表明,GaussianOcc在训练速度上比现有方法快2.7倍,在渲染速度上快5倍。这使得GaussianOcc更适用于实时性要求高的应用场景。

🎯 应用场景

GaussianOcc在自动驾驶、机器人导航、场景重建等领域具有广泛的应用前景。它可以应用于缺乏精确位姿信息的场景,例如在GPS信号弱或无GPS信号的环境中。通过高效的3D Occupancy估计,可以帮助自动驾驶车辆或机器人更好地理解周围环境,从而实现更安全、更可靠的导航。

📄 摘要(原文)

We introduce GaussianOcc, a systematic method that investigates the two usages of Gaussian splatting for fully self-supervised and efficient 3D occupancy estimation in surround views. First, traditional methods for self-supervised 3D occupancy estimation still require ground truth 6D poses from sensors during training. To address this limitation, we propose Gaussian Splatting for Projection (GSP) module to provide accurate scale information for fully self-supervised training from adjacent view projection. Additionally, existing methods rely on volume rendering for final 3D voxel representation learning using 2D signals (depth maps, semantic maps), which is both time-consuming and less effective. We propose Gaussian Splatting from Voxel space (GSV) to leverage the fast rendering properties of Gaussian splatting. As a result, the proposed GaussianOcc method enables fully self-supervised (no ground truth pose) 3D occupancy estimation in competitive performance with low computational cost (2.7 times faster in training and 5 times faster in rendering). The relevant code is available in https://github.com/GANWANSHUI/GaussianOcc.git.