CityGo: Lightweight Urban Modeling and Rendering with Proxy Buildings and Residual Gaussians

📄 arXiv: 2505.21041v3 📥 PDF

作者: Weihang Liu, Yuhui Zhong, Yuke Li, Xi Chen, Jiadi Cui, Honglong Zhang, Lan Xu, Xin Lou, Yujiao Shi, Jingyi Yu, Yingliang Zhang

分类: cs.GR, cs.CV

发布日期: 2025-05-27 (更新: 2025-06-09)


💡 一句话要点

CityGo:结合代理建筑与残差高斯的轻量级城市建模与渲染

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 城市建模 三维重建 高斯溅射 轻量级渲染 航空影像 代理几何 残差高斯

📋 核心要点

  1. 现有城市重建方法难以兼顾大规模、高精度和低资源占用,尤其是在航空影像重建中,遮挡和几何不完整是主要挑战。
  2. CityGo提出了一种混合表示方法,结合代理建筑几何体、残差高斯和周围高斯,以实现轻量级且逼真的城市场景渲染。
  3. 实验表明,CityGo在保证视觉质量的同时,显著降低了训练时间(1.4倍加速)、内存占用和能耗,并能在移动GPU上实时渲染。

📝 摘要(中文)

大规模城市场景的精确高效建模对于AR导航、无人机巡检和智慧城市数字孪生等应用至关重要。虽然航空影像提供了广泛的覆盖范围,并弥补了地面数据的局限性,但由于遮挡、几何不完整和高内存需求,从此类视图重建城市级环境仍然具有挑战性。最近的3D高斯溅射(3DGS)等技术提高了可扩展性和视觉质量,但仍然受到密集图元使用、长训练时间和不适合边缘设备的限制。我们提出了CityGo,一个混合框架,它结合了纹理代理几何体与残差和周围的3D高斯,用于从航空视角进行轻量级、照片般逼真的城市场景渲染。我们的方法首先从MVS点云中提取紧凑的建筑代理网格,然后使用零阶SH高斯通过基于图像的渲染和反投影生成无遮挡纹理。为了捕捉高频细节,我们引入了基于代理-照片差异并由深度先验引导的残差高斯。更广泛的城市环境由周围的高斯表示,对非关键区域应用重要性感知下采样以减少冗余。量身定制的优化策略共同优化代理纹理和高斯参数,从而能够在移动GPU上实时渲染复杂的城市场景,同时显著降低训练和内存需求。在真实世界航空数据集上的大量实验表明,我们的混合表示显著减少了训练时间,平均提速1.4倍,同时提供与纯3D高斯溅射方法相当的视觉保真度。此外,CityGo能够在移动消费级GPU上实时渲染大规模城市场景,同时显著降低内存使用和能耗。

🔬 方法详解

问题定义:现有的大规模城市场景重建方法,特别是基于航空影像的方法,面临着遮挡严重、几何信息不完整以及计算资源需求高等问题。例如,直接使用3D高斯溅射(3DGS)虽然能获得较好的视觉效果,但由于需要大量的图元,导致训练时间长,内存占用高,难以在边缘设备上部署。

核心思路:CityGo的核心思路是利用代理几何体来简化场景表示,并结合残差高斯来补充细节。具体来说,首先提取建筑的代理网格,然后使用图像渲染技术生成纹理。为了弥补代理几何体带来的细节损失,引入残差高斯来捕捉高频信息。同时,使用周围高斯来表示更广泛的城市环境,并进行重要性采样以减少冗余。

技术框架:CityGo的整体框架包含以下几个主要阶段:1) 代理几何体提取:从多视图立体(MVS)点云中提取紧凑的建筑代理网格。2) 纹理生成:使用零阶球谐函数(SH)高斯,通过基于图像的渲染和反投影生成无遮挡的纹理。3) 残差高斯生成:基于代理几何体与原始照片之间的差异,并结合深度先验,放置残差高斯以捕捉高频细节。4) 周围高斯生成:使用周围高斯表示更广泛的城市环境,并进行重要性感知下采样。5) 联合优化:联合优化代理纹理和高斯参数,以实现最佳的渲染效果。

关键创新:CityGo的关键创新在于混合表示方法,它将代理几何体与残差高斯相结合,既降低了计算复杂度,又保证了视觉质量。与纯3DGS方法相比,CityGo通过代理几何体减少了高斯图元的数量,从而降低了内存占用和训练时间。同时,残差高斯的使用弥补了代理几何体带来的细节损失。

关键设计:在残差高斯的生成过程中,使用了代理几何体与原始照片之间的差异作为指导,并结合深度先验来确定残差高斯的位置和参数。此外,还设计了一种重要性感知下采样方法,用于减少周围高斯的数量,从而进一步降低计算复杂度。在优化过程中,联合优化代理纹理和高斯参数,以实现最佳的渲染效果。损失函数的设计也至关重要,可能包括光度损失、深度损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CityGo在训练时间上平均提速1.4倍,同时保持了与纯3D高斯溅射方法相当的视觉保真度。此外,CityGo能够在移动消费级GPU上实时渲染大规模城市场景,并显著降低内存使用和能耗。这些结果表明,CityGo是一种高效、轻量级的城市建模与渲染方法,具有很强的实用价值。

🎯 应用场景

CityGo在多个领域具有广泛的应用前景,包括AR导航、无人机巡检、智慧城市数字孪生等。该技术可以用于构建轻量级、高精度的城市三维模型,为用户提供更逼真的导航体验。此外,CityGo还可以用于无人机巡检,帮助检测城市基础设施的损坏情况。在智慧城市领域,CityGo可以用于构建城市数字孪生,为城市规划和管理提供决策支持。

📄 摘要(原文)

Accurate and efficient modeling of large-scale urban scenes is critical for applications such as AR navigation, UAV based inspection, and smart city digital twins. While aerial imagery offers broad coverage and complements limitations of ground-based data, reconstructing city-scale environments from such views remains challenging due to occlusions, incomplete geometry, and high memory demands. Recent advances like 3D Gaussian Splatting (3DGS) improve scalability and visual quality but remain limited by dense primitive usage, long training times, and poor suit ability for edge devices. We propose CityGo, a hybrid framework that combines textured proxy geometry with residual and surrounding 3D Gaussians for lightweight, photorealistic rendering of urban scenes from aerial perspectives. Our approach first extracts compact building proxy meshes from MVS point clouds, then uses zero order SH Gaussians to generate occlusion-free textures via image-based rendering and back-projection. To capture high-frequency details, we introduce residual Gaussians placed based on proxy-photo discrepancies and guided by depth priors. Broader urban context is represented by surrounding Gaussians, with importance-aware downsampling applied to non-critical regions to reduce redundancy. A tailored optimization strategy jointly refines proxy textures and Gaussian parameters, enabling real-time rendering of complex urban scenes on mobile GPUs with significantly reduced training and memory requirements. Extensive experiments on real-world aerial datasets demonstrate that our hybrid representation significantly reduces training time, achieving on average 1.4x speedup, while delivering comparable visual fidelity to pure 3D Gaussian Splatting approaches. Furthermore, CityGo enables real-time rendering of large-scale urban scenes on mobile consumer GPUs, with substantially reduced memory usage and energy consumption.