DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes

📄 arXiv: 2411.11921v2 📥 PDF

作者: Chensheng Peng, Chengwei Zhang, Yixiao Wang, Chenfeng Xu, Yichen Xie, Wenzhao Zheng, Kurt Keutzer, Masayoshi Tomizuka, Wei Zhan

分类: cs.CV

发布日期: 2024-11-18 (更新: 2025-07-26)

备注: CVPR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

DeSiRe-GS:用于城市驾驶场景静态-动态分解和表面重建的4D街景高斯模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)

关键词: 高斯溅射 静态-动态分解 表面重建 自动驾驶 自监督学习

📋 核心要点

  1. 现有方法难以在动态城市环境中实现精确的静态-动态分解和高保真表面重建,尤其是在数据稀疏的情况下容易过拟合。
  2. DeSiRe-GS通过两阶段优化动态街景高斯模型,结合2D运动先验、几何正则化和时间跨视角一致性,实现更鲁棒的重建。
  3. 实验表明,DeSiRe-GS在自监督条件下超越了现有技术,并达到了与依赖外部3D标注方法相媲美的精度。

📝 摘要(中文)

我们提出了DeSiRe-GS,一种自监督的高斯溅射表示方法,能够在复杂的驾驶场景中实现有效的静态-动态分解和高保真表面重建。我们的方法采用动态街景高斯模型的两阶段优化流程。在第一阶段,我们提取2D运动掩码,基于3D高斯溅射本质上只能重建动态环境中的静态区域的观察。然后,这些提取的2D运动先验以可微的方式映射到高斯空间,在第二阶段利用动态高斯模型的有效公式。结合引入的几何正则化,我们的方法能够解决自动驾驶中数据稀疏导致的过拟合问题,重建与物体表面对齐而不是漂浮在空中的物理上合理的高斯模型。此外,我们引入了时间跨视角一致性,以确保跨时间和视点的一致性,从而实现高质量的表面重建。综合实验表明,DeSiRe-GS的效率和有效性超过了先前的自监督方法,并实现了与依赖外部3D边界框注释的方法相当的精度。代码可在https://github.com/chengweialan/DeSiRe-GS 获取。

🔬 方法详解

问题定义:论文旨在解决城市驾驶场景中,利用多视角图像进行静态背景和动态物体分解,并进行高精度三维表面重建的问题。现有方法在处理动态环境时,容易将动态物体融入静态场景,导致重建质量下降。此外,自动驾驶场景数据稀疏,容易导致过拟合,重建结果不准确。

核心思路:论文的核心思路是利用高斯溅射(Gaussian Splatting)的特性,即其天然倾向于重建静态场景,并以此为基础提取运动先验。然后,通过可微的方式将这些运动先验融入高斯空间,并结合几何正则化和时间一致性约束,优化动态高斯模型,从而实现静态-动态分解和高质量表面重建。

技术框架:DeSiRe-GS采用两阶段优化流程: 1. 运动掩码提取阶段:利用高斯溅射重建结果,提取2D运动掩码,作为动态区域的先验信息。 2. 动态高斯优化阶段:将2D运动先验映射到高斯空间,并结合几何正则化(例如,表面法向量一致性)和时间跨视角一致性约束,优化动态高斯模型。

关键创新:该方法的核心创新在于: 1. 自监督的静态-动态分解:无需额外的3D标注,仅利用高斯溅射的特性即可提取运动先验,实现自监督的静态-动态分解。 2. 动态高斯表示:通过可微的方式将运动先验融入高斯空间,并结合几何正则化和时间一致性约束,优化动态高斯模型,从而实现高质量的表面重建。 3. 几何正则化和时间一致性约束:通过引入几何正则化和时间一致性约束,解决了数据稀疏导致的过拟合问题,提高了重建的鲁棒性和准确性。

关键设计: * 2D运动掩码提取:通过分析高斯溅射重建结果的变化,提取2D运动掩码。 * 动态高斯表示:使用一组参数来表示每个高斯模型的动态属性,例如速度和加速度。 * 几何正则化:引入表面法向量一致性损失,鼓励重建的表面更加平滑。 * 时间跨视角一致性:引入时间跨视角一致性损失,鼓励不同视角和时间点的重建结果保持一致。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DeSiRe-GS在自监督条件下,实现了与依赖外部3D边界框标注的方法相当的精度。实验结果表明,该方法在静态-动态分解和表面重建方面均优于现有的自监督方法。具体而言,DeSiRe-GS在重建精度上取得了显著提升,并能够生成更逼真、更稳定的场景表示。

🎯 应用场景

DeSiRe-GS在自动驾驶领域具有广泛的应用前景,可用于高精地图构建、环境感知、运动规划和仿真测试等。通过精确的静态-动态分解和表面重建,可以提高自动驾驶系统的环境理解能力和决策安全性。此外,该方法还可以应用于城市建模、虚拟现实和增强现实等领域。

📄 摘要(原文)

We present DeSiRe-GS, a self-supervised gaussian splatting representation, enabling effective static-dynamic decomposition and high-fidelity surface reconstruction in complex driving scenarios. Our approach employs a two-stage optimization pipeline of dynamic street Gaussians. In the first stage, we extract 2D motion masks based on the observation that 3D Gaussian Splatting inherently can reconstruct only the static regions in dynamic environments. These extracted 2D motion priors are then mapped into the Gaussian space in a differentiable manner, leveraging an efficient formulation of dynamic Gaussians in the second stage. Combined with the introduced geometric regularizations, our method are able to address the over-fitting issues caused by data sparsity in autonomous driving, reconstructing physically plausible Gaussians that align with object surfaces rather than floating in air. Furthermore, we introduce temporal cross-view consistency to ensure coherence across time and viewpoints, resulting in high-quality surface reconstruction. Comprehensive experiments demonstrate the efficiency and effectiveness of DeSiRe-GS, surpassing prior self-supervised arts and achieving accuracy comparable to methods relying on external 3D bounding box annotations. Code is available at https://github.com/chengweialan/DeSiRe-GS