Gaussian Building Mesh (GBM): Extract a Building's 3D Mesh with Google Earth and Gaussian Splatting
作者: Kyle Gao, Liangzhi Li, Hongjie He, Dening Lu, Linlin Xu, Jonathan Li
分类: cs.CV, cs.GR
发布日期: 2024-12-31 (更新: 2025-06-05)
期刊: Remote Sensing Applications: Society and Environment 40 2025 101807
DOI: 10.1016/j.rsase.2025.101807
💡 一句话要点
提出基于Google Earth与高斯溅射的建筑物三维网格重建方法(GBM)
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 三维重建 高斯溅射 图像分割 建筑物建模 Google Earth
📋 核心要点
- 现有方法难以高效且精确地从多视角图像中重建建筑物的三维网格模型,需要大量标注数据或人工干预。
- 该方法结合SAM2+GroundingDINO进行图像分割,利用高斯溅射进行三维重建,无需大量标注数据,实现自动化三维网格提取。
- 通过形态学操作和轮廓简化改进掩码,提升分割精度,从而提高三维网格重建的质量和效率。
📝 摘要(中文)
本文提出了一种利用Google Earth和高斯溅射(Gaussian Splatting)技术提取建筑物三维网格的方法,命名为Gaussian Building Mesh (GBM)。该方法结合了开源的预训练图像分割和目标检测模型(SAM2+GroundingDINO),实现了多视角二维图像中几何一致的目标分割。用户可以通过文本或点击提示来分割目标,无需标注训练数据集。结合Google Earth Studio、SAM2+GroundingDINO、二维高斯溅射,以及基于形态学操作和轮廓简化的掩码细化改进,我们创建了一个流程,可以根据建筑物名称、地址或地理坐标提取任何建筑物的三维网格。
🔬 方法详解
问题定义:现有建筑物三维重建方法通常依赖于大量的标注数据或复杂的建模流程,成本高昂且效率低下。特别是对于大规模城市建筑群的重建,传统方法难以满足需求。因此,如何利用现有的图像数据和先进的AI模型,实现自动化、高效且精确的建筑物三维网格重建是一个关键问题。
核心思路:该论文的核心思路是结合Google Earth提供的多视角图像数据,利用预训练的图像分割模型SAM2+GroundingDINO进行建筑物分割,然后使用高斯溅射技术将分割结果转换为三维表示。通过这种方式,可以避免手动标注和复杂建模,实现自动化三维重建。
技术框架:该方法主要包含以下几个阶段:1) 利用Google Earth Studio获取目标建筑物的多视角图像;2) 使用SAM2+GroundingDINO对图像中的建筑物进行分割,生成掩码;3) 对掩码进行形态学操作和轮廓简化,以提高分割精度;4) 使用高斯溅射技术,将分割后的二维图像转换为三维高斯表示;5) 从高斯表示中提取建筑物的三维网格模型。
关键创新:该方法最重要的创新点在于将预训练的图像分割模型SAM2+GroundingDINO与高斯溅射技术相结合,实现了一种无需大量标注数据的自动化建筑物三维重建流程。此外,通过形态学操作和轮廓简化对掩码进行细化,进一步提高了重建精度。
关键设计:在掩码细化阶段,使用了形态学开运算和闭运算来去除噪声和填充空洞。轮廓简化采用了Douglas-Peucker算法,以减少网格模型的复杂度。高斯溅射使用了标准的3D Gaussian Splatting方法,并针对建筑物重建进行了参数调整,例如调整了学习率和迭代次数。
🖼️ 关键图片
📊 实验亮点
该方法利用预训练模型和高斯溅射技术,实现了无需大量标注数据的建筑物三维网格重建。通过形态学操作和轮廓简化,有效提升了分割精度和重建质量。实验结果表明,该方法能够快速、准确地重建建筑物的三维模型,为相关应用提供了有力的技术支持。具体性能数据和对比基线在原文中未明确给出,属于未知信息。
🎯 应用场景
该研究成果可广泛应用于城市规划、虚拟现实、游戏开发、地理信息系统等领域。例如,可以快速构建城市的三维模型,为城市规划提供数据支持;可以用于创建逼真的虚拟城市环境,提升用户体验;可以为游戏开发者提供高质量的建筑物模型,降低开发成本。未来,该方法有望扩展到其他类型的三维重建任务中。
📄 摘要(原文)
Recently released open-source pre-trained foundational image segmentation and object detection models (SAM2+GroundingDINO) allow for geometrically consistent segmentation of objects of interest in multi-view 2D images. Users can use text-based or click-based prompts to segment objects of interest without requiring labeled training datasets. Gaussian Splatting allows for the learning of the 3D representation of a scene's geometry and radiance based on 2D images. Combining Google Earth Studio, SAM2+GroundingDINO, 2D Gaussian Splatting, and our improvements in mask refinement based on morphological operations and contour simplification, we created a pipeline to extract the 3D mesh of any building based on its name, address, or geographic coordinates.