HAECcity: Open-Vocabulary Scene Understanding of City-Scale Point Clouds with Superpoint Graph Clustering

作者: Alexander Rusnak, Frédéric Kaplan

分类: cs.CV, cs.AI

发布日期: 2025-04-18

备注: Accepted for publication through the upcoming CVPR Workshop on open scene understanding with foundation models (OPENSUN3D)

💡 一句话要点

提出HAECcity，通过超点图聚类实现城市级点云的开放词汇场景理解。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 点云 场景理解 开放词汇 超点图聚类 图Transformer

📋 核心要点

现有3D场景理解方法依赖手工标注，难以扩展到城市级别的大规模点云数据。
HAECcity利用超点图聚类和混合专家图Transformer，实现高效的开放词汇场景理解。
在SensatUrban数据集上验证了HAECcity的有效性，并提出了无需手工标注的合成标注流程。

📝 摘要（中文）

传统的三维场景理解技术通常依赖于手工标注的标签集。近年来，出现了一种新的开放词汇三维场景理解技术。尽管这种范式在小场景上取得了成功，但现有方法无法有效地扩展到城市规模的三维数据集。本文提出了一种名为分层词汇无关专家聚类（HAEC）的方法，它基于超点图聚类，并利用一种新颖的混合专家图Transformer作为其骨干网络。我们将这种高度可扩展的方法首次应用于SensatUrban城市规模数据集的开放词汇场景理解。我们还展示了一种完全从原始点云中导出的合成标注流程，无需手工标注。我们的技术可以帮助解锁对密集城市三维场景的复杂操作，并为数字孪生的处理开辟新的道路。

🔬 方法详解

问题定义：现有三维场景理解方法依赖于手工标注的数据集，这限制了它们在城市级别大规模点云数据上的应用。手工标注成本高昂且耗时，难以满足实际需求。因此，需要一种能够处理大规模点云数据，并且不需要大量手工标注的开放词汇场景理解方法。

核心思路：论文的核心思路是利用超点图聚类来降低计算复杂度，并使用混合专家图Transformer来学习点云的特征表示。超点图聚类可以将点云分割成更小的、语义一致的区域，从而减少图Transformer需要处理的节点数量。混合专家图Transformer可以学习不同类型的点云区域的特征表示，从而提高场景理解的准确性。

技术框架：HAECcity的整体框架包括以下几个主要阶段：1) 超点分割：使用超点分割算法将点云分割成超点。2) 图构建：基于超点构建超点图，其中每个节点代表一个超点，每条边代表两个超点之间的关系。3) 特征提取：使用混合专家图Transformer提取超点图的节点特征。4) 聚类：使用聚类算法将节点特征聚类成不同的语义类别。

关键创新：该方法最重要的技术创新点在于混合专家图Transformer的设计。传统的图Transformer通常使用单一的Transformer层来处理所有节点，而混合专家图Transformer使用多个Transformer层，每个Transformer层专门处理一种类型的节点。这种设计可以更好地捕捉不同类型节点之间的差异，从而提高特征表示的质量。

关键设计：混合专家图Transformer的关键设计包括：1) 使用Gated Mixture of Experts (MoE) 来选择合适的Transformer层来处理每个节点。2) 使用残差连接来加速训练并提高模型的鲁棒性。3) 使用注意力机制来学习节点之间的关系。

🖼️ 关键图片

📊 实验亮点

HAECcity在SensatUrban数据集上实现了开放词汇场景理解，无需手工标注即可生成高质量的语义标签。该方法在城市规模点云数据上表现出良好的可扩展性和准确性，为大规模三维场景理解提供了一种新的解决方案。合成标注流程的提出，进一步降低了对人工标注的依赖。

🎯 应用场景

HAECcity可应用于城市级数字孪生的构建与维护、自动驾驶、城市规划、环境监测等领域。该技术能够自动理解城市三维场景，提取关键信息，为相关应用提供数据支持，降低人工成本，提高效率，并为更智能的城市管理和决策提供可能。

📄 摘要（原文）

Traditional 3D scene understanding techniques are generally predicated on hand-annotated label sets, but in recent years a new class of open-vocabulary 3D scene understanding techniques has emerged. Despite the success of this paradigm on small scenes, existing approaches cannot scale efficiently to city-scale 3D datasets. In this paper, we present Hierarchical vocab-Agnostic Expert Clustering (HAEC), after the latin word for 'these', a superpoint graph clustering based approach which utilizes a novel mixture of experts graph transformer for its backbone. We administer this highly scalable approach to the first application of open-vocabulary scene understanding on the SensatUrban city-scale dataset. We also demonstrate a synthetic labeling pipeline which is derived entirely from the raw point clouds with no hand-annotation. Our technique can help unlock complex operations on dense urban 3D scenes and open a new path forward in the processing of digital twins.

HAECcity: Open-Vocabulary Scene Understanding of City-Scale Point Clouds with Superpoint Graph Clustering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理