HAECcity: Open-Vocabulary Scene Understanding of City-Scale Point Clouds with Superpoint Graph Clustering

📄 arXiv: 2504.13590v1 📥 PDF

作者: Alexander Rusnak, Frédéric Kaplan

分类: cs.CV, cs.AI

发布日期: 2025-04-18

备注: Accepted for publication through the upcoming CVPR Workshop on open scene understanding with foundation models (OPENSUN3D)


💡 一句话要点

提出HAECcity,通过超点图聚类实现城市级点云的开放词汇场景理解。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 点云 场景理解 开放词汇 超点图聚类 图Transformer

📋 核心要点

  1. 现有3D场景理解方法依赖手工标注,难以扩展到城市级别的大规模点云数据。
  2. HAECcity利用超点图聚类和混合专家图Transformer,实现高效的开放词汇场景理解。
  3. 在SensatUrban数据集上验证了HAECcity的有效性,并提出了无需手工标注的合成标注流程。

📝 摘要(中文)

传统的三维场景理解技术通常依赖于手工标注的标签集。近年来,出现了一种新的开放词汇三维场景理解技术。尽管这种范式在小场景上取得了成功,但现有方法无法有效地扩展到城市规模的三维数据集。本文提出了一种名为分层词汇无关专家聚类(HAEC)的方法,它基于超点图聚类,并利用一种新颖的混合专家图Transformer作为其骨干网络。我们将这种高度可扩展的方法首次应用于SensatUrban城市规模数据集的开放词汇场景理解。我们还展示了一种完全从原始点云中导出的合成标注流程,无需手工标注。我们的技术可以帮助解锁对密集城市三维场景的复杂操作,并为数字孪生的处理开辟新的道路。

🔬 方法详解

问题定义:现有三维场景理解方法依赖于手工标注的数据集,这限制了它们在城市级别大规模点云数据上的应用。手工标注成本高昂且耗时,难以满足实际需求。因此,需要一种能够处理大规模点云数据,并且不需要大量手工标注的开放词汇场景理解方法。

核心思路:论文的核心思路是利用超点图聚类来降低计算复杂度,并使用混合专家图Transformer来学习点云的特征表示。超点图聚类可以将点云分割成更小的、语义一致的区域,从而减少图Transformer需要处理的节点数量。混合专家图Transformer可以学习不同类型的点云区域的特征表示,从而提高场景理解的准确性。

技术框架:HAECcity的整体框架包括以下几个主要阶段:1) 超点分割:使用超点分割算法将点云分割成超点。2) 图构建:基于超点构建超点图,其中每个节点代表一个超点,每条边代表两个超点之间的关系。3) 特征提取:使用混合专家图Transformer提取超点图的节点特征。4) 聚类:使用聚类算法将节点特征聚类成不同的语义类别。

关键创新:该方法最重要的技术创新点在于混合专家图Transformer的设计。传统的图Transformer通常使用单一的Transformer层来处理所有节点,而混合专家图Transformer使用多个Transformer层,每个Transformer层专门处理一种类型的节点。这种设计可以更好地捕捉不同类型节点之间的差异,从而提高特征表示的质量。

关键设计:混合专家图Transformer的关键设计包括:1) 使用Gated Mixture of Experts (MoE) 来选择合适的Transformer层来处理每个节点。2) 使用残差连接来加速训练并提高模型的鲁棒性。3) 使用注意力机制来学习节点之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HAECcity在SensatUrban数据集上实现了开放词汇场景理解,无需手工标注即可生成高质量的语义标签。该方法在城市规模点云数据上表现出良好的可扩展性和准确性,为大规模三维场景理解提供了一种新的解决方案。合成标注流程的提出,进一步降低了对人工标注的依赖。

🎯 应用场景

HAECcity可应用于城市级数字孪生的构建与维护、自动驾驶、城市规划、环境监测等领域。该技术能够自动理解城市三维场景,提取关键信息,为相关应用提供数据支持,降低人工成本,提高效率,并为更智能的城市管理和决策提供可能。

📄 摘要(原文)

Traditional 3D scene understanding techniques are generally predicated on hand-annotated label sets, but in recent years a new class of open-vocabulary 3D scene understanding techniques has emerged. Despite the success of this paradigm on small scenes, existing approaches cannot scale efficiently to city-scale 3D datasets. In this paper, we present Hierarchical vocab-Agnostic Expert Clustering (HAEC), after the latin word for 'these', a superpoint graph clustering based approach which utilizes a novel mixture of experts graph transformer for its backbone. We administer this highly scalable approach to the first application of open-vocabulary scene understanding on the SensatUrban city-scale dataset. We also demonstrate a synthetic labeling pipeline which is derived entirely from the raw point clouds with no hand-annotation. Our technique can help unlock complex operations on dense urban 3D scenes and open a new path forward in the processing of digital twins.