Visibility-Aware Densification for 3D Gaussian Splatting in Dynamic Urban Scenes
作者: Yikang Zhang, Rui Fan
分类: cs.CV
发布日期: 2025-10-10
💡 一句话要点
VAD-GS:面向动态城市场景,基于可见性推理的3D高斯溅射稠密化方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 动态城市场景 可见性推理 多视图立体 几何重建
📋 核心要点
- 现有3DGS方法在动态城市环境中,由于初始点云质量不足和遮挡问题,导致几何重建失真和伪影。
- VAD-GS通过可见性推理识别不可靠几何结构,并利用多样性视图选择和多视图立体重建来恢复缺失结构。
- 在Waymo和nuScenes数据集上的实验表明,VAD-GS显著优于现有3DGS方法,提升了静态和动态对象的几何重建质量。
📝 摘要(中文)
3D高斯溅射(3DGS)在合成高保真新视角方面表现出令人印象深刻的性能。然而,其有效性关键取决于初始化点云的质量。特别是在无界、动态的城市环境中,实现对底层场景结构的均匀和完整的点覆盖需要重叠的观察视锥,但这一假设通常不成立。使用部分初始化的点云训练高斯模型通常会导致失真和伪影,因为相机光线可能无法与有效的表面相交,从而导致不正确的梯度传播到与遮挡或不可见几何体相关联的高斯基元。此外,现有的稠密化策略只是从现有的高斯基元克隆和分裂,无法重建缺失的结构。为了解决这些限制,我们提出VAD-GS,一个为具有挑战性的城市场景中的几何恢复量身定制的3DGS框架。我们的方法通过基于体素的可见性推理识别不可靠的几何结构,通过多样性感知视图选择选择信息丰富的支持视图,并通过基于补丁匹配的多视图立体重建恢复缺失的结构。这种设计使得即使在缺乏初始点的区域,也能在可靠的几何先验的指导下生成新的高斯基元。在Waymo和nuScenes数据集上的大量实验表明,VAD-GS优于最先进的3DGS方法,并显著提高了静态和动态对象的重建几何体的质量。源代码将在发布后公开。
🔬 方法详解
问题定义:现有3D高斯溅射方法在动态城市环境中面临挑战,主要痛点在于初始点云质量不高,尤其是在存在遮挡和视点稀疏的区域。这导致相机光线无法准确与场景表面相交,使得梯度传播不正确,最终影响几何重建的质量,产生失真和伪影。此外,传统的稠密化方法仅依赖于现有高斯基元的复制和分裂,无法有效重建缺失的几何结构。
核心思路:VAD-GS的核心思路是通过引入可见性感知机制,识别并修复不可靠的几何结构。它利用体素化的可见性推理来判断哪些区域的几何信息不足或存在遮挡,然后通过选择信息量大的视角,并结合多视图立体重建技术,生成新的高斯基元,从而填补缺失的几何信息。这种方法的核心在于利用可靠的几何先验来指导高斯基元的生成,即使在初始点云稀疏的区域也能有效重建。
技术框架:VAD-GS的整体框架包含以下几个主要模块:1) 可见性推理模块:使用体素化的方法对场景进行划分,并根据相机位姿计算每个体素的可见性。2) 视图选择模块:基于多样性感知策略,选择信息量大的视角,用于后续的多视图立体重建。3) 多视图立体重建模块:利用选定的视角,通过补丁匹配等方法进行多视图立体重建,生成新的点云。4) 高斯基元生成模块:根据重建的点云,初始化新的高斯基元,并将其添加到现有的高斯模型中。
关键创新:VAD-GS的关键创新在于其可见性感知的稠密化策略。与传统的基于复制和分裂的稠密化方法不同,VAD-GS能够根据场景的可见性信息,主动地重建缺失的几何结构。这种方法能够有效地解决由于遮挡和视点稀疏导致的点云不完整问题,从而提高几何重建的质量。
关键设计:VAD-GS的关键设计包括:1) 体素大小的选择:体素大小的选择直接影响可见性推理的精度。2) 视图选择策略:多样性感知的视图选择策略能够选择信息量大的视角,从而提高多视图立体重建的质量。3) 多视图立体重建算法:补丁匹配算法的选择和参数设置会影响重建点云的精度和效率。4) 高斯基元初始化方法:如何根据重建的点云初始化高斯基元,使其能够有效地表示场景的几何信息。
📊 实验亮点
VAD-GS在Waymo和nuScenes数据集上进行了广泛的实验,结果表明,VAD-GS在几何重建质量方面显著优于现有的3DGS方法。具体来说,VAD-GS在静态和动态对象的重建精度上都取得了明显的提升,减少了失真和伪影。实验结果验证了VAD-GS在处理复杂城市环境中的几何重建问题的有效性。
🎯 应用场景
VAD-GS在自动驾驶、城市建模、机器人导航等领域具有广泛的应用前景。它可以用于提高自动驾驶系统对复杂城市环境的感知能力,例如准确重建被遮挡的车辆和行人。在城市建模中,VAD-GS可以生成更完整、更精确的3D模型,用于城市规划和管理。此外,该方法还可以应用于机器人导航,帮助机器人在复杂的环境中进行定位和路径规划。
📄 摘要(原文)
3D Gaussian splatting (3DGS) has demonstrated impressive performance in synthesizing high-fidelity novel views. Nonetheless, its effectiveness critically depends on the quality of the initialized point cloud. Specifically, achieving uniform and complete point coverage over the underlying scene structure requires overlapping observation frustums, an assumption that is often violated in unbounded, dynamic urban environments. Training Gaussian models with partially initialized point clouds often leads to distortions and artifacts, as camera rays may fail to intersect valid surfaces, resulting in incorrect gradient propagation to Gaussian primitives associated with occluded or invisible geometry. Additionally, existing densification strategies simply clone and split Gaussian primitives from existing ones, incapable of reconstructing missing structures. To address these limitations, we propose VAD-GS, a 3DGS framework tailored for geometry recovery in challenging urban scenes. Our method identifies unreliable geometry structures via voxel-based visibility reasoning, selects informative supporting views through diversity-aware view selection, and recovers missing structures via patch matching-based multi-view stereo reconstruction. This design enables the generation of new Gaussian primitives guided by reliable geometric priors, even in regions lacking initial points. Extensive experiments on the Waymo and nuScenes datasets demonstrate that VAD-GS outperforms state-of-the-art 3DGS approaches and significantly improves the quality of reconstructed geometry for both static and dynamic objects. Source code will be released upon publication.