Indoor Asset Detection in Large Scale 360° Drone-Captured Imagery via 3D Gaussian Splatting
作者: Monica Tang, Avideh Zakhor
分类: cs.CV
发布日期: 2026-04-07
备注: Accepted to CVPR 2026 3DMV Workshop
💡 一句话要点
提出基于3D高斯溅射的室内资产检测方法,用于大规模360°无人机图像。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 室内资产检测 多视角图像 对象级分割 无人机图像 语义分割 3D对象码本
📋 核心要点
- 现有方法难以有效关联多视角信息,导致室内资产检测精度不足,尤其是在大规模场景中。
- 该方法利用3D高斯溅射重建场景,并引入3D对象码本,结合语义和空间信息指导多视角掩码关联。
- 实验表明,该方法显著提升了多视角掩码一致性和对象级检测精度,F1得分和mAP分别提升65%和11%。
📝 摘要(中文)
本文提出了一种在3D高斯溅射(3DGS)场景中进行目标室内资产对象级检测和分割的方法,该场景由360°无人机拍摄的图像重建而成。我们引入了一个3D对象码本,它联合利用掩码语义信息和对应高斯基元的空间信息,以指导多视角掩码关联和室内资产检测。通过将2D对象检测和分割模型与语义和空间约束的合并程序相结合,我们的方法将来自多个视角的掩码聚合为连贯的3D对象实例。在两个大型室内场景上的实验表明,该方法具有可靠的多视角掩码一致性,F1得分比最先进的基线提高了65%,并实现了准确的对象级3D室内资产检测,mAP比基线方法提高了11%。
🔬 方法详解
问题定义:论文旨在解决大规模室内场景下,利用360°无人机图像重建的3D场景中,对特定室内资产进行对象级别的检测和分割问题。现有方法在处理多视角图像时,难以保持掩码一致性,导致检测精度较低,尤其是在复杂和遮挡严重的场景中。
核心思路:论文的核心思路是利用3D高斯溅射(3DGS)技术重建场景,并引入一个3D对象码本,该码本将掩码的语义信息和对应高斯基元的空间信息结合起来,用于指导多视角掩码的关联。通过在3D空间中进行推理,可以更好地利用多视角信息,提高掩码一致性和检测精度。
技术框架:该方法主要包含以下几个阶段:1) 利用360°无人机图像重建3DGS场景;2) 使用2D对象检测和分割模型在多个视角下提取候选掩码;3) 利用3D对象码本,根据语义和空间约束,将来自不同视角的掩码聚合为连贯的3D对象实例;4) 对聚合后的3D对象实例进行分类,实现对象级别的室内资产检测。
关键创新:该方法最重要的创新点在于引入了3D对象码本,它将掩码的语义信息和对应高斯基元的空间信息结合起来,用于指导多视角掩码的关联。这种方法能够有效地利用3D空间信息,提高掩码一致性和检测精度。与现有方法相比,该方法不再仅仅依赖于2D图像信息,而是充分利用了3D场景的几何和语义信息。
关键设计:3D对象码本的设计是关键。具体来说,码本中的每个条目都包含一个语义标签和一个高斯分布,该高斯分布描述了对应对象在3D空间中的位置和形状。在进行掩码关联时,该方法会计算每个候选掩码与码本中每个条目的相似度,并选择最相似的条目作为该掩码的标签。此外,该方法还使用了语义和空间约束来进一步提高掩码关联的准确性。例如,如果两个掩码的语义标签不同,或者它们在3D空间中的距离过远,则它们不太可能属于同一个对象。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在两个大型室内场景中取得了显著的性能提升。在多视角掩码一致性方面,F1得分比最先进的基线提高了65%。在对象级3D室内资产检测方面,mAP比基线方法提高了11%。这些结果表明,该方法能够有效地利用多视角信息,提高检测精度。
🎯 应用场景
该研究成果可应用于智能建筑、智慧城市等领域,例如室内导航、资产管理、安防监控等。通过自动检测和分割室内资产,可以提高管理效率,降低运营成本,并为用户提供更便捷的服务。未来,该技术有望扩展到更复杂的场景,例如工业环境和灾害救援。
📄 摘要(原文)
We present an approach for object-level detection and segmentation of target indoor assets in 3D Gaussian Splatting (3DGS) scenes, reconstructed from 360° drone-captured imagery. We introduce a 3D object codebook that jointly leverages mask semantics and spatial information of their corresponding Gaussian primitives to guide multi-view mask association and indoor asset detection. By integrating 2D object detection and segmentation models with semantically and spatially constrained merging procedures, our method aggregates masks from multiple views into coherent 3D object instances. Experiments on two large indoor scenes demonstrate reliable multi-view mask consistency, improving F1 score by 65% over state-of-the-art baselines, and accurate object-level 3D indoor asset detection, achieving an 11% mAP gain over baseline methods.