GS-Occ3D: Scaling Vision-only Occupancy Reconstruction with Gaussian Splatting

📄 arXiv: 2507.19451v3 📥 PDF

作者: Baijun Ye, Minghui Qin, Saining Zhang, Moonjun Gong, Shaoting Zhu, Zebang Shen, Luan Zhang, Lu Zhang, Hao Zhao, Hang Zhao

分类: cs.CV

发布日期: 2025-07-25 (更新: 2025-08-02)

备注: ICCV 2025. Project Page: https://gs-occ3d.github.io/


💡 一句话要点

GS-Occ3D:利用高斯溅射实现可扩展的纯视觉 occupancy 重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: Occupancy重建 高斯溅射 纯视觉 自动驾驶 三维重建 场景理解 Octree 可扩展性

📋 核心要点

  1. 现有 occupancy 重建方法依赖激光雷达标注,成本高昂且难以扩展,限制了众包数据的利用。
  2. GS-Occ3D 提出了一种纯视觉 occupancy 重建框架,使用 Octree 高斯 Surfel 公式优化显式 occupancy 表示,提升效率和可扩展性。
  3. 实验表明,GS-Occ3D 在 Waymo 数据集上实现了 SOTA 的几何重建结果,并在下游任务中表现出良好的泛化能力。

📝 摘要(中文)

Occupancy对于自动驾驶至关重要,它为感知和规划提供了必要的几何先验。然而,现有方法主要依赖于基于激光雷达的 occupancy 标注,这限制了可扩展性,并阻碍了利用大量潜在的众包数据进行自动标注。为了解决这个问题,我们提出了GS-Occ3D,一个可扩展的纯视觉框架,可以直接重建 occupancy。纯视觉 occupancy 重建由于视角稀疏、场景元素动态、严重遮挡和长时程运动而面临重大挑战。现有的基于视觉的方法主要依赖于网格表示,这导致几何不完整和额外的后处理,限制了可扩展性。为了克服这些问题,GS-Occ3D使用基于Octree的高斯 Surfel 公式优化显式的 occupancy 表示,确保效率和可扩展性。此外,我们将场景分解为静态背景、地面和动态对象,从而实现定制的建模策略:(1)地面被显式地重建为主要的结构元素,显著提高了大面积一致性;(2)动态车辆被单独建模,以更好地捕捉与运动相关的 occupancy 模式。在Waymo数据集上的大量实验表明,GS-Occ3D实现了最先进的几何重建结果。通过从不同的城市场景中整理纯视觉二元 occupancy 标签,我们展示了它们对Occ3D-Waymo下游 occupancy 模型的有效性,以及在Occ3D-nuScenes上的卓越零样本泛化能力。它突出了大规模基于视觉的 occupancy 重建作为一种可扩展的自动标注新范式的潜力。

🔬 方法详解

问题定义:现有 occupancy 重建方法主要依赖激光雷达数据,标注成本高,难以扩展到大规模数据集。基于视觉的方法虽然降低了成本,但由于视角稀疏、遮挡严重以及动态场景元素的影响,重建的几何信息不完整,且需要额外的后处理,限制了其可扩展性。

核心思路:GS-Occ3D 的核心思路是利用高斯溅射(Gaussian Splatting)技术,结合 Octree 结构,构建一种显式的 occupancy 表示。通过优化高斯参数,可以更有效地表示场景的几何信息,同时利用 Octree 结构加速渲染和查询。此外,将场景分解为静态背景、地面和动态对象,分别进行建模,可以更好地处理复杂场景。

技术框架:GS-Occ3D 的整体框架包括以下几个主要模块:1) 图像特征提取:使用神经网络提取多视角图像的特征。2) 高斯初始化:根据图像特征初始化高斯参数,包括位置、方差、颜色等。3) occupancy 优化:使用 occupancy 损失函数优化高斯参数,使其更好地表示场景的 occupancy 信息。4) 场景分解:将场景分解为静态背景、地面和动态对象,分别进行建模。5) 渲染:使用高斯溅射技术渲染 occupancy 结果。

关键创新:GS-Occ3D 的关键创新在于:1) 提出了一种基于高斯溅射的显式 occupancy 表示,克服了传统网格表示的不足。2) 引入 Octree 结构,加速渲染和查询,提高了效率和可扩展性。3) 将场景分解为静态背景、地面和动态对象,分别进行建模,提高了重建精度和鲁棒性。

关键设计:GS-Occ3D 的关键设计包括:1) 使用 Octree 结构组织高斯参数,加速渲染和查询。2) 设计 occupancy 损失函数,鼓励高斯参数表示正确的 occupancy 信息。3) 使用不同的建模策略处理静态背景、地面和动态对象,例如,显式地重建地面,并单独建模动态车辆。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GS-Occ3D 在 Waymo 数据集上取得了 SOTA 的几何重建结果。通过从不同的城市场景中整理纯视觉二元 occupancy 标签,该方法在 Occ3D-Waymo 数据集上表现出良好的性能,并在 Occ3D-nuScenes 数据集上实现了卓越的零样本泛化能力,验证了其在下游任务中的有效性。

🎯 应用场景

GS-Occ3D 有望应用于自动驾驶、机器人导航、三维地图重建等领域。通过纯视觉的 occupancy 重建,可以降低对激光雷达的依赖,降低成本,并利用众包数据进行大规模场景重建。该技术可以为自动驾驶车辆提供更准确的环境感知,提高导航的安全性。

📄 摘要(原文)

Occupancy is crucial for autonomous driving, providing essential geometric priors for perception and planning. However, existing methods predominantly rely on LiDAR-based occupancy annotations, which limits scalability and prevents leveraging vast amounts of potential crowdsourced data for auto-labeling. To address this, we propose GS-Occ3D, a scalable vision-only framework that directly reconstructs occupancy. Vision-only occupancy reconstruction poses significant challenges due to sparse viewpoints, dynamic scene elements, severe occlusions, and long-horizon motion. Existing vision-based methods primarily rely on mesh representation, which suffer from incomplete geometry and additional post-processing, limiting scalability. To overcome these issues, GS-Occ3D optimizes an explicit occupancy representation using an Octree-based Gaussian Surfel formulation, ensuring efficiency and scalability. Additionally, we decompose scenes into static background, ground, and dynamic objects, enabling tailored modeling strategies: (1) Ground is explicitly reconstructed as a dominant structural element, significantly improving large-area consistency; (2) Dynamic vehicles are separately modeled to better capture motion-related occupancy patterns. Extensive experiments on the Waymo dataset demonstrate that GS-Occ3D achieves state-of-the-art geometry reconstruction results. By curating vision-only binary occupancy labels from diverse urban scenes, we show their effectiveness for downstream occupancy models on Occ3D-Waymo and superior zero-shot generalization on Occ3D-nuScenes. It highlights the potential of large-scale vision-based occupancy reconstruction as a new paradigm for scalable auto-labeling. Project Page: https://gs-occ3d.github.io/