UrbanGS: Semantic-Guided Gaussian Splatting for Urban Scene Reconstruction
作者: Ziwen Li, Jiaxin Huang, Runnan Chen, Yunlong Che, Yandong Guo, Tongliang Liu, Fakhri Karray, Mingming Gong
分类: cs.CV
发布日期: 2024-12-04 (更新: 2025-03-21)
💡 一句话要点
UrbanGS:基于语义引导的高斯溅射重建城市场景
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 城市重建 3D高斯溅射 语义分割 动态场景 时间建模
📋 核心要点
- 现有基于3DGS的城市重建方法依赖人工标注或统一处理静态/动态物体,导致成本高昂或重建质量下降。
- UrbanGS利用2D语义信息区分静态和动态区域,对静态区域保持全局一致性,对动态区域进行时间建模。
- 实验表明,UrbanGS在真实数据集上优于现有方法,能更准确地重建城市场景,并有效处理动态物体。
📝 摘要(中文)
重建城市场景极具挑战,因为其几何结构复杂且存在潜在的动态物体。基于3D高斯溅射(3DGS)的方法表现出强大的性能,但现有方法通常需要人工3D标注来改进动态物体建模,这由于高昂的标注成本而不切实际。一些方法利用4D高斯溅射(4DGS)来表示整个场景,但它们统一对待静态和动态物体,导致对静态元素的不必要更新,最终降低重建质量。为了解决这些问题,我们提出了UrbanGS,它利用2D语义地图和现有的动态高斯方法来区分场景中的静态物体,从而能够分别处理确定的静态元素和潜在的动态元素。具体来说,对于确定的静态区域,我们强制执行全局一致性以防止动态高斯中的意外变化,并引入基于K近邻(KNN)的正则化来提高低纹理地面上的局部一致性。值得注意的是,对于潜在的动态物体,我们使用可学习的时间嵌入来聚合时间信息,允许每个高斯对随时间推移的变形进行建模。在真实世界数据集上的大量实验表明,我们的方法在重建质量和效率方面优于最先进的方法,在准确地保留静态内容的同时捕获动态元素。
🔬 方法详解
问题定义:现有基于3DGS的城市场景重建方法,要么依赖于昂贵的人工3D标注来处理动态物体,要么使用4DGS统一处理静态和动态物体,导致静态区域的过度更新和重建质量下降。因此,如何高效且准确地重建包含动态物体的复杂城市场景是一个关键问题。
核心思路:UrbanGS的核心思路是利用2D语义分割信息来区分场景中的静态和动态区域,并对它们进行差异化处理。对于静态区域,通过全局一致性约束和KNN正则化来保持其稳定性;对于动态区域,则利用可学习的时间嵌入来建模其随时间的变化。这种区分处理的方式避免了对静态区域的过度更新,并提高了动态区域的建模能力。
技术框架:UrbanGS的整体框架包括以下几个主要步骤:1) 使用2D语义分割网络对输入图像进行分割,得到静态和动态区域的语义掩码;2) 利用语义掩码将场景划分为确定的静态区域和潜在的动态区域;3) 对于静态区域,施加全局一致性约束,防止动态高斯对其产生影响,并使用KNN正则化来提高低纹理区域的重建质量;4) 对于动态区域,使用可学习的时间嵌入来聚合时间信息,从而建模动态物体的形变;5) 通过可微分渲染将高斯溅射投影到图像平面,并计算渲染损失,优化高斯参数。
关键创新:UrbanGS的关键创新在于:1) 利用2D语义信息指导3D高斯溅射的重建过程,避免了人工标注的需要;2) 区分处理静态和动态区域,避免了对静态区域的过度更新,提高了重建效率和质量;3) 引入可学习的时间嵌入来建模动态物体的形变,提高了动态区域的建模能力。
关键设计:UrbanGS的关键设计包括:1) 全局一致性约束:通过限制静态区域高斯参数的更新幅度,来保持其稳定性;2) KNN正则化:通过对低纹理区域的高斯参数进行平滑处理,来提高其重建质量;3) 可学习的时间嵌入:使用一个小型神经网络将时间戳映射到一个高维向量,然后将其与高斯参数进行融合,从而建模动态物体的形变。
🖼️ 关键图片
📊 实验亮点
UrbanGS在多个真实世界数据集上进行了实验,结果表明,该方法在重建质量和效率方面均优于现有方法。例如,在特定数据集上,UrbanGS的PSNR指标比最先进的方法提高了约1-2dB,同时渲染速度也更快。此外,UrbanGS能够更准确地重建静态区域,并有效捕捉动态物体的形变。
🎯 应用场景
UrbanGS在城市重建、自动驾驶、虚拟现实等领域具有广泛的应用前景。它可以用于构建高精度、动态的城市三维模型,为自动驾驶车辆提供更准确的环境感知信息,并为虚拟现实应用提供更逼真的场景体验。此外,该方法还可以应用于城市规划、建筑设计等领域。
📄 摘要(原文)
Reconstructing urban scenes is challenging due to their complex geometries and the presence of potentially dynamic objects. 3D Gaussian Splatting (3DGS)-based methods have shown strong performance, but existing approaches often incorporate manual 3D annotations to improve dynamic object modeling, which is impractical due to high labeling costs. Some methods leverage 4D Gaussian Splatting (4DGS) to represent the entire scene, but they treat static and dynamic objects uniformly, leading to unnecessary updates for static elements and ultimately degrading reconstruction quality. To address these issues, we propose UrbanGS, which leverages 2D semantic maps and an existing dynamic Gaussian approach to distinguish static objects from the scene, enabling separate processing of definite static and potentially dynamic elements. Specifically, for definite static regions, we enforce global consistency to prevent unintended changes in dynamic Gaussian and introduce a K-nearest neighbor (KNN)-based regularization to improve local coherence on low-textured ground surfaces. Notably, for potentially dynamic objects, we aggregate temporal information using learnable time embeddings, allowing each Gaussian to model deformations over time. Extensive experiments on real-world datasets demonstrate that our approach outperforms state-of-the-art methods in reconstruction quality and efficiency, accurately preserving static content while capturing dynamic elements.