GS-Occ3D: Scaling Vision-only Occupancy Reconstruction with Gaussian Splatting

作者: Baijun Ye, Minghui Qin, Saining Zhang, Moonjun Gong, Shaoting Zhu, Zebang Shen, Luan Zhang, Lu Zhang, Hao Zhao, Hang Zhao

分类: cs.CV

发布日期: 2025-07-25 (更新: 2025-08-02)

备注: ICCV 2025. Project Page: https://gs-occ3d.github.io/

💡 一句话要点

GS-Occ3D：利用高斯溅射实现可扩展的纯视觉 occupancy 重建

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: Occupancy重建 高斯溅射 纯视觉 自动驾驶 三维重建 场景理解 Octree 可扩展性

📋 核心要点

现有 occupancy 重建方法依赖激光雷达标注，成本高昂且难以扩展，限制了众包数据的利用。
GS-Occ3D 提出了一种纯视觉 occupancy 重建框架，使用 Octree 高斯 Surfel 公式优化显式 occupancy 表示，提升效率和可扩展性。
实验表明，GS-Occ3D 在 Waymo 数据集上实现了 SOTA 的几何重建结果，并在下游任务中表现出良好的泛化能力。

📝 摘要（中文）

Occupancy对于自动驾驶至关重要，它为感知和规划提供了必要的几何先验。然而，现有方法主要依赖于基于激光雷达的 occupancy 标注，这限制了可扩展性，并阻碍了利用大量潜在的众包数据进行自动标注。为了解决这个问题，我们提出了GS-Occ3D，一个可扩展的纯视觉框架，可以直接重建 occupancy。纯视觉 occupancy 重建由于视角稀疏、场景元素动态、严重遮挡和长时程运动而面临重大挑战。现有的基于视觉的方法主要依赖于网格表示，这导致几何不完整和额外的后处理，限制了可扩展性。为了克服这些问题，GS-Occ3D使用基于Octree的高斯 Surfel 公式优化显式的 occupancy 表示，确保效率和可扩展性。此外，我们将场景分解为静态背景、地面和动态对象，从而实现定制的建模策略：（1）地面被显式地重建为主要的结构元素，显著提高了大面积一致性；（2）动态车辆被单独建模，以更好地捕捉与运动相关的 occupancy 模式。在Waymo数据集上的大量实验表明，GS-Occ3D实现了最先进的几何重建结果。通过从不同的城市场景中整理纯视觉二元 occupancy 标签，我们展示了它们对Occ3D-Waymo下游 occupancy 模型的有效性，以及在Occ3D-nuScenes上的卓越零样本泛化能力。它突出了大规模基于视觉的 occupancy 重建作为一种可扩展的自动标注新范式的潜力。

🔬 方法详解

问题定义：现有 occupancy 重建方法主要依赖激光雷达数据，标注成本高，难以扩展到大规模数据集。基于视觉的方法虽然降低了成本，但由于视角稀疏、遮挡严重以及动态场景元素的影响，重建的几何信息不完整，且需要额外的后处理，限制了其可扩展性。

核心思路：GS-Occ3D 的核心思路是利用高斯溅射（Gaussian Splatting）技术，结合 Octree 结构，构建一种显式的 occupancy 表示。通过优化高斯参数，可以更有效地表示场景的几何信息，同时利用 Octree 结构加速渲染和查询。此外，将场景分解为静态背景、地面和动态对象，分别进行建模，可以更好地处理复杂场景。

技术框架：GS-Occ3D 的整体框架包括以下几个主要模块：1) 图像特征提取：使用神经网络提取多视角图像的特征。2) 高斯初始化：根据图像特征初始化高斯参数，包括位置、方差、颜色等。3) occupancy 优化：使用 occupancy 损失函数优化高斯参数，使其更好地表示场景的 occupancy 信息。4) 场景分解：将场景分解为静态背景、地面和动态对象，分别进行建模。5) 渲染：使用高斯溅射技术渲染 occupancy 结果。

关键创新：GS-Occ3D 的关键创新在于：1) 提出了一种基于高斯溅射的显式 occupancy 表示，克服了传统网格表示的不足。2) 引入 Octree 结构，加速渲染和查询，提高了效率和可扩展性。3) 将场景分解为静态背景、地面和动态对象，分别进行建模，提高了重建精度和鲁棒性。

关键设计：GS-Occ3D 的关键设计包括：1) 使用 Octree 结构组织高斯参数，加速渲染和查询。2) 设计 occupancy 损失函数，鼓励高斯参数表示正确的 occupancy 信息。3) 使用不同的建模策略处理静态背景、地面和动态对象，例如，显式地重建地面，并单独建模动态车辆。

🖼️ 关键图片

📊 实验亮点

GS-Occ3D 在 Waymo 数据集上取得了 SOTA 的几何重建结果。通过从不同的城市场景中整理纯视觉二元 occupancy 标签，该方法在 Occ3D-Waymo 数据集上表现出良好的性能，并在 Occ3D-nuScenes 数据集上实现了卓越的零样本泛化能力，验证了其在下游任务中的有效性。

🎯 应用场景

GS-Occ3D 有望应用于自动驾驶、机器人导航、三维地图重建等领域。通过纯视觉的 occupancy 重建，可以降低对激光雷达的依赖，降低成本，并利用众包数据进行大规模场景重建。该技术可以为自动驾驶车辆提供更准确的环境感知，提高导航的安全性。

📄 摘要（原文）

Occupancy is crucial for autonomous driving, providing essential geometric priors for perception and planning. However, existing methods predominantly rely on LiDAR-based occupancy annotations, which limits scalability and prevents leveraging vast amounts of potential crowdsourced data for auto-labeling. To address this, we propose GS-Occ3D, a scalable vision-only framework that directly reconstructs occupancy. Vision-only occupancy reconstruction poses significant challenges due to sparse viewpoints, dynamic scene elements, severe occlusions, and long-horizon motion. Existing vision-based methods primarily rely on mesh representation, which suffer from incomplete geometry and additional post-processing, limiting scalability. To overcome these issues, GS-Occ3D optimizes an explicit occupancy representation using an Octree-based Gaussian Surfel formulation, ensuring efficiency and scalability. Additionally, we decompose scenes into static background, ground, and dynamic objects, enabling tailored modeling strategies: (1) Ground is explicitly reconstructed as a dominant structural element, significantly improving large-area consistency; (2) Dynamic vehicles are separately modeled to better capture motion-related occupancy patterns. Extensive experiments on the Waymo dataset demonstrate that GS-Occ3D achieves state-of-the-art geometry reconstruction results. By curating vision-only binary occupancy labels from diverse urban scenes, we show their effectiveness for downstream occupancy models on Occ3D-Waymo and superior zero-shot generalization on Occ3D-nuScenes. It highlights the potential of large-scale vision-based occupancy reconstruction as a new paradigm for scalable auto-labeling. Project Page: https://gs-occ3d.github.io/

GS-Occ3D: Scaling Vision-only Occupancy Reconstruction with Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理