From Flight to Insight: Semantic 3D Reconstruction for Aerial Inspection via Gaussian Splatting and Language-Guided Segmentation
作者: Mahmoud Chick Zaouali, Todd Charter, Homayoun Najjaran
分类: cs.GR, cs.CV, eess.IV
发布日期: 2025-05-23
💡 一句话要点
提出基于高斯溅射和语言引导分割的语义3D重建方法,用于无人机航拍巡检。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 语义3D重建 高斯溅射 语言引导分割 无人机航拍 场景理解
📋 核心要点
- 现有航拍巡检的3D重建方法缺乏语义信息,难以支持自动化工作流程。
- 利用语言提示引导3D分割,结合Feature-3DGS和SAM等模型,实现语义可解释的3D重建。
- 实验表明该方法能够有效捕获大规模户外环境中的结构信息,实现灵活的语言驱动交互。
📝 摘要(中文)
高保真3D重建对于基础设施监测、结构评估和环境调查等航拍巡检任务至关重要。传统摄影测量技术虽然能够实现几何建模,但缺乏语义可解释性,限制了其在自动化巡检工作流程中的有效性。近年来,神经渲染和3D高斯溅射(3DGS)的进步提供了高效、逼真的重建,但同样缺乏场景级的理解。本文提出了一种基于无人机的流水线,扩展了Feature-3DGS以实现语言引导的3D分割。我们利用基于LSeg的特征场与CLIP嵌入,生成响应语言提示的热图。这些热图经过阈值处理以产生粗略的分割,然后使用得分最高的点作为提示,利用SAM或SAM2对新视角渲染进行精细的2D分割。结果突出了各种特征场骨干网络(CLIP-LSeg、SAM、SAM2)在捕获大规模户外环境中有效结构方面的优势和局限性。我们证明了这种混合方法能够实现与逼真3D重建的灵活、语言驱动的交互,为语义航拍巡检和场景理解开辟了新的可能性。
🔬 方法详解
问题定义:现有基于无人机航拍的3D重建方法,例如传统的摄影测量技术和新兴的3D高斯溅射(3DGS),主要关注几何结构的重建,缺乏对场景语义信息的理解。这使得它们在自动化巡检任务中应用受限,例如无法自动识别和标注建筑物、桥梁等关键结构。
核心思路:本文的核心思路是将语言信息融入到3D重建过程中,通过语言提示引导3D场景的分割,从而赋予3D模型语义信息。具体来说,利用语言模型(如CLIP)将语言提示转换为特征向量,并将其与3D场景的特征场进行关联,从而生成与语言提示相关的热图,进而实现3D分割。
技术框架:该方法主要包含以下几个阶段:1) 使用无人机采集图像数据;2) 利用Feature-3DGS进行初始的3D重建,生成包含特征信息的3D高斯模型;3) 接收用户输入的语言提示;4) 利用CLIP等模型将语言提示转换为特征向量,并与3D高斯模型的特征场进行关联,生成热图;5) 对热图进行阈值处理,得到粗略的3D分割结果;6) 利用SAM或SAM2等模型对新视角渲染图像进行精细的2D分割,并将2D分割结果反投影到3D空间,进一步优化3D分割结果。
关键创新:该方法最重要的创新点在于将语言信息与3D重建过程相结合,实现了语言引导的语义3D重建。与传统的3D重建方法相比,该方法能够根据用户的语言提示,自动分割和标注3D场景中的目标物体,从而大大提高了3D模型的语义可解释性和应用价值。
关键设计:该方法的一些关键设计包括:1) 使用Feature-3DGS作为3D重建的骨干网络,能够高效地生成包含特征信息的3D高斯模型;2) 使用CLIP等模型将语言提示转换为特征向量,能够有效地捕捉语言的语义信息;3) 使用SAM或SAM2等模型进行精细的2D分割,能够提高分割的精度和鲁棒性;4) 通过将2D分割结果反投影到3D空间,能够进一步优化3D分割结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够有效地捕获大规模户外环境中的结构信息,并实现灵活的语言驱动交互。通过对比不同的特征场骨干网络(CLIP-LSeg、SAM、SAM2),论文分析了它们在不同场景下的优缺点,为实际应用提供了指导。该方法为语义航拍巡检和场景理解开辟了新的可能性。
🎯 应用场景
该研究成果可广泛应用于基础设施监测、结构评估、环境调查等领域。例如,可以利用该方法对桥梁、建筑物等进行自动化的缺陷检测和评估,或者对森林、河流等进行环境监测和分析。该技术有望提高巡检效率,降低人工成本,并为决策提供更准确的数据支持。
📄 摘要(原文)
High-fidelity 3D reconstruction is critical for aerial inspection tasks such as infrastructure monitoring, structural assessment, and environmental surveying. While traditional photogrammetry techniques enable geometric modeling, they lack semantic interpretability, limiting their effectiveness for automated inspection workflows. Recent advances in neural rendering and 3D Gaussian Splatting (3DGS) offer efficient, photorealistic reconstructions but similarly lack scene-level understanding. In this work, we present a UAV-based pipeline that extends Feature-3DGS for language-guided 3D segmentation. We leverage LSeg-based feature fields with CLIP embeddings to generate heatmaps in response to language prompts. These are thresholded to produce rough segmentations, and the highest-scoring point is then used as a prompt to SAM or SAM2 for refined 2D segmentation on novel view renderings. Our results highlight the strengths and limitations of various feature field backbones (CLIP-LSeg, SAM, SAM2) in capturing meaningful structure in large-scale outdoor environments. We demonstrate that this hybrid approach enables flexible, language-driven interaction with photorealistic 3D reconstructions, opening new possibilities for semantic aerial inspection and scene understanding.