DriveSplat: Decoupled Driving Scene Reconstruction with Geometry-enhanced Partitioned Neural Gaussians

📄 arXiv: 2508.15376v3 📥 PDF

作者: Cong Wang, Xianda Guo, Wenbo Xu, Wei Tian, Ruiqi Song, Chenming Zhang, Lingxi Li, Long Chen

分类: cs.CV

发布日期: 2025-08-21 (更新: 2025-09-21)


💡 一句话要点

DriveSplat:提出几何增强的分区神经高斯方法,用于解耦驾驶场景重建。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 驾驶场景重建 神经高斯溅射 动态-静态解耦 可变形神经高斯 几何先验监督

📋 核心要点

  1. 现有方法在驾驶场景重建中,对动态静态解耦后的背景优化缺乏几何关系建模,导致新视角渲染鲁棒性不足。
  2. DriveSplat通过区域式体素初始化、可变形神经高斯以及深度和法线先验监督,提升驾驶场景重建质量。
  3. 在Waymo和KITTI数据集上的实验表明,DriveSplat在驾驶场景新视角合成方面达到了最先进的性能。

📝 摘要(中文)

在驾驶场景中,快速移动的车辆、运动中的行人以及大规模的静态背景给3D场景重建带来了重大挑战。最近基于3D高斯溅射的方法通过解耦场景中的动态和静态组件来解决运动模糊问题。然而,这些解耦策略忽略了具有足够几何关系的背景优化,并且仅仅依靠添加高斯来拟合每个训练视图。因此,这些模型在渲染新视角时表现出有限的鲁棒性,并且缺乏精确的几何表示。为了解决上述问题,我们提出了一种基于神经高斯表示的高质量驾驶场景重建方法DriveSplat,该方法具有动态-静态解耦能力。为了更好地适应驾驶视点的主要线性运动模式,采用了一种区域式体素初始化方案,该方案将场景划分为近、中、远区域,以增强近距离细节表示。引入可变形神经高斯来建模非刚性动态参与者,其参数通过可学习的变形网络进行时间调整。整个框架进一步受到来自预训练模型的深度和法线先验的监督,从而提高了几何结构的准确性。我们的方法已经在Waymo和KITTI数据集上进行了严格的评估,证明了其在驾驶场景的新视角合成方面具有最先进的性能。

🔬 方法详解

问题定义:论文旨在解决驾驶场景中3D场景重建的问题,特别是如何处理快速移动的车辆、运动中的行人以及大规模静态背景带来的挑战。现有方法虽然尝试通过动态-静态解耦来解决运动模糊问题,但忽略了背景优化中的几何关系,并且过度依赖高斯拟合,导致新视角渲染的鲁棒性较差,几何表示不准确。

核心思路:论文的核心思路是通过引入几何增强的分区神经高斯表示,实现高质量的驾驶场景重建。具体来说,通过区域式体素初始化来更好地适应驾驶视点的线性运动模式,使用可变形神经高斯来建模动态物体,并利用深度和法线先验来监督几何结构,从而提高重建的准确性和鲁棒性。

技术框架:DriveSplat的整体框架包含以下几个主要模块:1) 区域式体素初始化:将场景划分为近、中、远区域,并根据区域特性初始化高斯分布,以增强近距离细节表示。2) 可变形神经高斯:使用可变形的神经高斯来建模非刚性动态物体,并通过可学习的变形网络来调整高斯参数。3) 几何先验监督:利用预训练模型的深度和法线信息作为先验知识,监督高斯参数的优化,提高几何结构的准确性。4) 动态-静态解耦:将场景分解为动态和静态组件,分别进行优化,以减少运动模糊的影响。

关键创新:DriveSplat的关键创新在于以下几个方面:1) 提出了区域式体素初始化方案,更好地适应驾驶场景的特点。2) 引入了可变形神经高斯,能够更有效地建模动态物体。3) 利用深度和法线先验进行几何监督,提高了重建的几何准确性。与现有方法相比,DriveSplat更加注重几何信息的利用,从而提高了新视角渲染的鲁棒性和准确性。

关键设计:在区域式体素初始化中,根据距离相机远近将场景划分为不同区域,并为每个区域设置不同的高斯初始化参数。可变形神经高斯使用一个可学习的变形网络来预测高斯参数的偏移量,该网络以高斯的位置和时间作为输入。几何先验监督通过计算重建结果与深度和法线先验之间的损失来实现,损失函数包括深度损失和法线损失。动态-静态解耦通过一个mask来区分动态和静态高斯,并分别进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DriveSplat在Waymo和KITTI数据集上进行了评估,实验结果表明,该方法在驾驶场景的新视角合成方面达到了最先进的性能。具体来说,DriveSplat在PSNR、SSIM和LPIPS等指标上均优于现有的方法,并且能够生成更加清晰、逼真的新视角图像。例如,在Waymo数据集上,DriveSplat的PSNR比现有最佳方法提高了约1dB。

🎯 应用场景

DriveSplat在自动驾驶、虚拟现实、增强现实等领域具有广泛的应用前景。它可以用于生成高质量的驾驶场景,为自动驾驶系统的训练和测试提供逼真的环境。此外,它还可以用于创建沉浸式的虚拟现实体验,例如驾驶模拟器和游戏。该技术还有潜力应用于城市规划、交通管理等领域,通过重建城市三维模型,进行可视化分析和决策。

📄 摘要(原文)

In the realm of driving scenarios, the presence of rapidly moving vehicles, pedestrians in motion, and large-scale static backgrounds poses significant challenges for 3D scene reconstruction. Recent methods based on 3D Gaussian Splatting address the motion blur problem by decoupling dynamic and static components within the scene. However, these decoupling strategies overlook background optimization with adequate geometry relationships and rely solely on fitting each training view by adding Gaussians. Therefore, these models exhibit limited robustness in rendering novel views and lack an accurate geometric representation. To address the above issues, we introduce DriveSplat, a high-quality reconstruction method for driving scenarios based on neural Gaussian representations with dynamic-static decoupling. To better accommodate the predominantly linear motion patterns of driving viewpoints, a region-wise voxel initialization scheme is employed, which partitions the scene into near, middle, and far regions to enhance close-range detail representation. Deformable neural Gaussians are introduced to model non-rigid dynamic actors, whose parameters are temporally adjusted by a learnable deformation network. The entire framework is further supervised by depth and normal priors from pre-trained models, improving the accuracy of geometric structures. Our method has been rigorously evaluated on the Waymo and KITTI datasets, demonstrating state-of-the-art performance in novel-view synthesis for driving scenarios.