GS4City: Hierarchical Semantic Gaussian Splatting via City-Model Priors
作者: Qilin Zhang, Jinyu Zhu, Olaf Wysocki, Benjamin Busam, Boris Jutzi
分类: cs.CV
发布日期: 2026-04-13
🔗 代码/项目: GITHUB
💡 一句话要点
GS4City:利用城市模型先验的分层语义高斯溅射,用于城市场景理解。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语义高斯溅射 城市模型 CityGML 三维重建 语义分割 城市场景理解 光线投射
📋 核心要点
- 现有语义3D高斯溅射方法依赖2D基础模型,导致城市场景边界模糊,缺乏结构化语义支持。
- GS4City利用CityGML城市模型先验,通过两阶段光线投射生成图像对齐掩码,融合几何与语义信息。
- 实验表明,GS4City在城市场景分割任务上显著优于现有方法,提升高达15.8 IoU和14.2 mIoU。
📝 摘要(中文)
目前,语义3D高斯溅射(3DGS)方法主要依赖于2D基础模型,这通常导致模糊的边界和对结构化城市语义的有限支持。而诸如CityGML之类的城市模型将分层组织的语义与建筑物几何体一起编码,但这些标签无法直接映射到高斯基元。我们提出了GS4City,一种分层语义高斯溅射方法,它结合了城市模型先验用于城市场景理解。GS4City通过两遍光线投射从Level of Detail (LoD) 3 CityGML模型中导出可靠的图像对齐掩码,显式地使用父子关系来验证和恢复细粒度的立面元素。然后,它将这些基于几何的掩码与基础模型的预测融合,以建立场景一致的实例对应关系,并在联合2D身份监督和3D空间正则化下,为每个高斯学习紧凑的身份编码。在TUM2TWIN和Gold Coast数据集上的实验表明,GS4City有效地将结构化建筑物语义整合到高斯场景表示中,在粗略建筑物分割方面,优于现有的2D驱动的语义3DGS基线(包括LangSplat和Gaga)高达15.8 IoU点,在细粒度语义分割方面,优于14.2 mIoU点。通过桥接结构化城市模型和照片级真实感高斯场景表示,GS4City实现了语义可查询和结构感知的城市重建。代码可在https://github.com/Jinyzzz/GS4City获取。
🔬 方法详解
问题定义:现有语义3D高斯溅射方法主要依赖2D图像信息,缺乏对城市结构化信息的有效利用,导致语义分割结果不准确,边界模糊,难以进行结构化查询和分析。CityGML等城市模型包含丰富的结构化语义信息,但如何将其有效融入到高斯溅射框架中是一个挑战。
核心思路:GS4City的核心思路是将CityGML城市模型作为先验知识,通过光线投射生成图像对齐的语义掩码,并将其与2D基础模型的预测结果融合,从而实现更准确、更结构化的语义高斯溅射。利用CityGML的分层结构,显式地使用父子关系来验证和恢复细粒度的立面元素,增强语义一致性。
技术框架:GS4City主要包含以下几个阶段:1) CityGML掩码生成:通过两阶段光线投射,从LoD3 CityGML模型中生成图像对齐的语义掩码。2) 掩码融合:将CityGML掩码与2D基础模型的预测结果融合,建立场景一致的实例对应关系。3) 高斯身份编码学习:在联合2D身份监督和3D空间正则化下,为每个高斯学习紧凑的身份编码。4) 语义高斯溅射:利用学习到的身份编码和融合后的语义信息,进行语义高斯溅射渲染。
关键创新:GS4City的关键创新在于:1) CityGML先验融合:首次将CityGML城市模型作为先验知识融入到语义高斯溅射框架中,有效提升了语义分割的准确性和结构一致性。2) 分层语义利用:利用CityGML的分层结构,显式地使用父子关系来验证和恢复细粒度的立面元素,增强了语义的鲁棒性。3) 几何与语义融合:通过光线投射将CityGML的几何信息与2D基础模型的语义信息融合,实现了几何与语义的有效结合。
关键设计:在CityGML掩码生成阶段,采用了两阶段光线投射策略,第一阶段用于生成粗略的掩码,第二阶段利用父子关系对掩码进行精细化。在掩码融合阶段,采用了加权融合策略,根据CityGML掩码和2D基础模型的置信度进行加权。在身份编码学习阶段,采用了对比损失函数,鼓励相同实例的高斯具有相似的身份编码,不同实例的高斯具有不同的身份编码。
🖼️ 关键图片
📊 实验亮点
GS4City在TUM2TWIN和Gold Coast数据集上进行了实验,结果表明,GS4City在粗略建筑物分割方面,优于现有的2D驱动的语义3DGS基线(包括LangSplat和Gaga)高达15.8 IoU点,在细粒度语义分割方面,优于14.2 mIoU点。这些结果表明,GS4City能够有效地将结构化建筑物语义整合到高斯场景表示中,显著提升了城市场景理解的性能。
🎯 应用场景
GS4City可应用于智慧城市建设、城市规划、自动驾驶、增强现实等领域。通过提供语义可查询和结构感知的城市重建,可以支持城市信息的管理、分析和可视化,为城市决策提供支持。未来,可以进一步扩展到动态城市场景的重建和分析,例如交通流量分析、人群行为分析等。
📄 摘要(原文)
Recent semantic 3D Gaussian Splatting (3DGS) methods primarily rely on 2D foundation models, often yielding ambiguous boundaries and limited support for structured urban semantics. While city models such as CityGML encode hierarchically organized semantics together with building geometry, these labels cannot be directly mapped to Gaussian primitives. We present GS4City, a hierarchical semantic Gaussian Splatting method that incorporates city-model priors for urban scene understanding. GS4City derives reliable image-aligned masks from Level of Detail (LoD) 3 CityGML models via two-pass raycasting, explicitly using parent-child relations to validate and recover fine-grained facade elements. It then fuses these geometry-grounded masks with foundation-model predictions to establish scene-consistent instance correspondences, and learns a compact identity encoding for each Gaussian under joint 2D identity supervision and 3D spatial regularization. Experiments on the TUM2TWIN and Gold Coast datasets show that GS4City effectively incorporates structured building semantics into Gaussian scene representations, outperforming existing 2D-driven semantic 3DGS baselines, including LangSplat and Gaga, by up to 15.8 IoU points in coarse building segmentation and 14.2 mIoU points in fine-grained semantic segmentation. By bridging structured city models and photorealistic Gaussian scene representations, GS4City enables semantically queryable and structure-aware urban reconstruction. Code is available at https://github.com/Jinyzzz/GS4City.