PG-SAG: Parallel Gaussian Splatting for Fine-Grained Large-Scale Urban Buildings Reconstruction via Semantic-Aware Grouping

📄 arXiv: 2501.01677v1 📥 PDF

作者: Tengfei Wang, Xin Wang, Yongmao Hou, Yiwei Xu, Wendi Zhang, Zongqian Zhan

分类: cs.CV

发布日期: 2025-01-03

🔗 代码/项目: GITHUB


💡 一句话要点

提出PG-SAG,通过语义感知分组并行高斯溅射重建大规模城市建筑

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 语义分割 并行计算 城市建筑重建 大规模场景 法线估计 梯度约束

📋 核心要点

  1. 现有基于空间划分的3D高斯溅射方法难以在不降低分辨率的情况下重建大规模城市建筑的精细表面。
  2. PG-SAG利用语义信息进行建筑分割和区域分组,并行优化高斯核,并引入梯度约束的平衡负载损失。
  3. 实验表明,PG-SAG在城市建筑表面重建方面优于现有3DGS方法,实现了更精细的重建效果。

📝 摘要(中文)

本文提出了一种并行高斯溅射方法PG-SAG,充分利用语义信息进行分割和高斯核优化,从而在不降低原始图像分辨率的情况下,实现大规模城市区域的精细建筑表面重建。首先,利用跨模态模型Language Segment Anything分割建筑掩码。然后,根据注册图像之间的可见性检查,将分割后的建筑区域分组为子区域。这些子区域的高斯核与掩码像素并行优化。此外,重新制定了法线损失,用于检测掩码的边缘,以减轻边缘法向量的模糊性。最后,为了改善3D高斯优化,引入了一种梯度约束的平衡负载损失,该损失考虑了相应场景的复杂性,有效地减少了像素并行渲染阶段的线程等待时间以及重建损失。在各种城市数据集上进行了大量实验,结果表明,与几种最先进的基于3DGS的方法相比,PG-SAG在建筑表面重建方面表现出卓越的性能。

🔬 方法详解

问题定义:现有基于3D高斯溅射的大规模场景重建方法通常采用基于空间的划分策略,虽然降低了显存占用和优化时间,但难以在不降低原始图像分辨率的情况下,对城市建筑的精细表面进行高质量重建。现有的方法在建筑边缘区域的法向量估计上存在模糊性,影响重建质量。

核心思路:PG-SAG的核心思路是利用语义信息指导高斯溅射的并行优化过程。通过语义分割将建筑区域划分成更小的、具有语义一致性的子区域,然后针对这些子区域并行地进行高斯核优化。这种方法可以更有效地利用计算资源,并减少优化过程中的冲突,从而提高重建效率和质量。

技术框架:PG-SAG的整体框架包括以下几个主要阶段:1) 语义分割:使用跨模态模型Language Segment Anything分割建筑掩码。2) 区域分组:根据注册图像之间的可见性检查,将分割后的建筑区域分组为子区域。3) 并行优化:针对每个子区域,并行地进行高斯核优化,并使用掩码像素进行约束。4) 法线损失改进:重新制定法线损失,用于检测掩码的边缘,以减轻边缘法向量的模糊性。5) 梯度约束平衡负载损失:引入梯度约束的平衡负载损失,以减少像素并行渲染阶段的线程等待时间。

关键创新:PG-SAG的关键创新在于:1) 语义感知的区域分组:利用语义信息将建筑区域划分成更小的、具有语义一致性的子区域,从而更好地利用并行计算资源。2) 改进的法线损失:重新制定法线损失,用于检测掩码的边缘,以减轻边缘法向量的模糊性,提高重建质量。3) 梯度约束平衡负载损失:引入梯度约束的平衡负载损失,以减少像素并行渲染阶段的线程等待时间,提高渲染效率。

关键设计:1) 语义分割模型:使用Language Segment Anything进行语义分割,该模型具有强大的跨模态理解能力。2) 可见性检查:使用注册图像之间的可见性信息进行区域分组,确保每个子区域在尽可能多的图像中可见。3) 并行优化策略:针对每个子区域,使用掩码像素并行地进行高斯核优化。4) 梯度约束平衡负载损失:该损失函数旨在平衡不同子区域的计算负载,并约束梯度的大小,以提高优化效率和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PG-SAG在多个城市数据集上取得了优于现有3DGS方法的性能。具体而言,PG-SAG在建筑表面重建的精度和完整性方面均有显著提升,尤其是在建筑边缘区域的重建质量方面。此外,PG-SAG还能够有效地减少像素并行渲染阶段的线程等待时间,提高渲染效率。

🎯 应用场景

PG-SAG可应用于智慧城市建设、城市规划、虚拟现实、增强现实等领域。通过对大规模城市建筑进行高精度三维重建,可以为城市管理、交通规划、环境监测等提供重要的数据支持。此外,该技术还可以用于创建逼真的虚拟城市环境,为用户提供沉浸式的体验。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) has emerged as a transformative method in the field of real-time novel synthesis. Based on 3DGS, recent advancements cope with large-scale scenes via spatial-based partition strategy to reduce video memory and optimization time costs. In this work, we introduce a parallel Gaussian splatting method, termed PG-SAG, which fully exploits semantic cues for both partitioning and Gaussian kernel optimization, enabling fine-grained building surface reconstruction of large-scale urban areas without downsampling the original image resolution. First, the Cross-modal model - Language Segment Anything is leveraged to segment building masks. Then, the segmented building regions is grouped into sub-regions according to the visibility check across registered images. The Gaussian kernels for these sub-regions are optimized in parallel with masked pixels. In addition, the normal loss is re-formulated for the detected edges of masks to alleviate the ambiguities in normal vectors on edges. Finally, to improve the optimization of 3D Gaussians, we introduce a gradient-constrained balance-load loss that accounts for the complexity of the corresponding scenes, effectively minimizing the thread waiting time in the pixel-parallel rendering stage as well as the reconstruction lost. Extensive experiments are tested on various urban datasets, the results demonstrated the superior performance of our PG-SAG on building surface reconstruction, compared to several state-of-the-art 3DGS-based methods. Project Web:https://github.com/TFWang-9527/PG-SAG.