OG-Gaussian: Occupancy Based Street Gaussians for Autonomous Driving

📄 arXiv: 2502.14235v1 📥 PDF

作者: Yedong Shen, Xinran Zhang, Yifan Duan, Shiqi Zhang, Heng Li, Yilong Wu, Jianmin Ji, Yanyong Zhang

分类: cs.CV, cs.AI

发布日期: 2025-02-20


💡 一句话要点

提出OG-Gaussian,利用Occupancy Grid重建自动驾驶场景,降低成本并提升效率。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自动驾驶 场景重建 3D高斯溅射 Occupancy Grid 深度学习 仿真环境 动态对象 环视相机

📋 核心要点

  1. 传统方法依赖昂贵的LiDAR传感器和动态对象预标注数据集,限制了自动驾驶场景重建的效率和成本。
  2. OG-Gaussian利用环视相机图像生成的Occupancy Grids,区分静态背景和动态车辆,并用于初始化3D高斯模型。
  3. 实验表明,OG-Gaussian在重建质量和渲染速度上与SOTA方法相当,同时降低了计算成本和标注需求。

📝 摘要(中文)

本文提出了一种名为OG-Gaussian的新方法,用于重建逼真且精确的3D场景,从而为自动驾驶创建逼真的模拟环境。该方法利用Occupancy Prediction Network (ONet)从环视相机图像生成Occupancy Grids (OGs),取代了传统的LiDAR点云。OG-Gaussian利用OGs中的语义信息将动态车辆与静态街道背景分离,并将这些网格转换为两组不同的初始点云,用于重建静态和动态对象。此外,通过一种基于学习的方法估计动态对象的轨迹和姿态,无需复杂的人工标注。在Waymo Open数据集上的实验表明,OG-Gaussian在重建质量和渲染速度方面与当前最先进水平相当,平均PSNR达到35.13,渲染速度达到143 FPS,同时显著降低了计算成本和经济开销。

🔬 方法详解

问题定义:现有基于3D高斯溅射(3DGS)的自动驾驶场景重建方法通常依赖于昂贵的LiDAR传感器获取点云数据,并且需要预先标注的动态对象数据集。这增加了重建的成本和复杂性,限制了其在资源受限环境中的应用。因此,需要一种更经济高效的方法,能够在无需LiDAR和人工标注的情况下重建高质量的自动驾驶场景。

核心思路:OG-Gaussian的核心思路是利用环视相机图像生成的Occupancy Grids (OGs)来替代LiDAR点云。通过Occupancy Prediction Network (ONet)预测场景的Occupancy,并利用OGs中的语义信息区分静态背景和动态车辆。然后,将这些OGs转换为初始点云,用于分别重建静态和动态对象。此外,采用学习方法估计动态对象的轨迹和姿态,避免了人工标注。

技术框架:OG-Gaussian的整体框架包括以下几个主要阶段:1) 利用环视相机图像,通过ONet生成Occupancy Grids;2) 基于OGs的语义信息,分离静态背景和动态车辆;3) 将分离后的OGs转换为静态和动态对象的初始点云;4) 使用3DGS优化静态场景的重建;5) 使用学习方法估计动态对象的轨迹和姿态,并优化动态对象的3DGS表示。

关键创新:OG-Gaussian最重要的技术创新点在于使用Occupancy Grids替代LiDAR点云,并结合学习方法估计动态对象的轨迹和姿态。这消除了对昂贵LiDAR传感器和人工标注的依赖,显著降低了重建成本和复杂性。与现有方法相比,OG-Gaussian能够以更经济高效的方式重建高质量的自动驾驶场景。

关键设计:ONet网络结构的选择和训练数据的准备至关重要。损失函数的设计需要平衡Occupancy预测的准确性和动态对象姿态估计的精度。3DGS的初始化参数和优化策略也需要仔细调整,以获得最佳的重建效果。动态对象轨迹和姿态估计的学习方法需要选择合适的网络结构和训练策略,以保证估计的准确性和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OG-Gaussian在Waymo Open数据集上取得了显著的成果,在重建质量和渲染速度方面与当前最先进水平相当,平均PSNR达到35.13,渲染速度达到143 FPS。同时,该方法无需LiDAR传感器和人工标注,显著降低了计算成本和经济开销。这些结果表明,OG-Gaussian是一种经济高效且高质量的自动驾驶场景重建方法。

🎯 应用场景

OG-Gaussian可应用于自动驾驶仿真环境的创建、自动驾驶算法的测试和验证、以及高精地图的生成。该方法降低了场景重建的成本,使得大规模、多样化的自动驾驶仿真成为可能,加速自动驾驶技术的研发和部署。此外,该方法还可以应用于虚拟现实、游戏等领域,用于创建逼真的3D场景。

📄 摘要(原文)

Accurate and realistic 3D scene reconstruction enables the lifelike creation of autonomous driving simulation environments. With advancements in 3D Gaussian Splatting (3DGS), previous studies have applied it to reconstruct complex dynamic driving scenes. These methods typically require expensive LiDAR sensors and pre-annotated datasets of dynamic objects. To address these challenges, we propose OG-Gaussian, a novel approach that replaces LiDAR point clouds with Occupancy Grids (OGs) generated from surround-view camera images using Occupancy Prediction Network (ONet). Our method leverages the semantic information in OGs to separate dynamic vehicles from static street background, converting these grids into two distinct sets of initial point clouds for reconstructing both static and dynamic objects. Additionally, we estimate the trajectories and poses of dynamic objects through a learning-based approach, eliminating the need for complex manual annotations. Experiments on Waymo Open dataset demonstrate that OG-Gaussian is on par with the current state-of-the-art in terms of reconstruction quality and rendering speed, achieving an average PSNR of 35.13 and a rendering speed of 143 FPS, while significantly reducing computational costs and economic overhead.