OpenUrban3D: Annotation-Free Open-Vocabulary Semantic Segmentation of Large-Scale Urban Point Clouds

📄 arXiv: 2509.10842v1 📥 PDF

作者: Chongyu Wang, Kunlei Jing, Jihua Zhu, Di Wang

分类: cs.CV

发布日期: 2025-09-13


💡 一句话要点

OpenUrban3D:无需标注的大规模城市点云开放词汇语义分割

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇语义分割 城市点云 多视角渲染 视觉-语言模型 零样本学习

📋 核心要点

  1. 现有大规模城市点云语义分割方法依赖于固定标签集,无法处理新颖或细粒度的类别,且缺乏高质量多视角图像。
  2. OpenUrban3D通过多视角渲染、视觉-语言特征提取和样本平衡融合,直接从原始点云生成鲁棒的语义特征,无需预训练或标注。
  3. 实验表明,OpenUrban3D在SensatUrban和SUM等数据集上显著提升了分割精度和跨场景泛化能力,展现了其潜力。

📝 摘要(中文)

开放词汇语义分割使模型能够识别和分割来自任意自然语言描述的对象,从而能够灵活地处理超出固定标签集的新颖、细粒度或功能定义的类别。虽然这种能力对于支持数字孪生、智慧城市管理和城市分析等应用的大规模城市点云至关重要,但该领域的研究仍然不足。主要的障碍是大规模城市点云数据集中经常缺乏高质量、良好对齐的多视角图像,以及现有三维(3D)分割管道在具有几何、尺度和外观显着差异的各种城市环境中的泛化能力较差。为了应对这些挑战,我们提出了OpenUrban3D,这是第一个用于大规模城市场景的3D开放词汇语义分割框架,它无需对齐的多视角图像、预训练的点云分割网络或手动注释即可运行。我们的方法通过多视角、多粒度渲染、掩码级视觉-语言特征提取和样本平衡融合,直接从原始点云生成鲁棒的语义特征,然后将其提炼到3D骨干模型中。这种设计能够对任意文本查询进行零样本分割,同时捕获语义丰富性和几何先验。在包括SensatUrban和SUM在内的大规模城市基准上的大量实验表明,OpenUrban3D在分割精度和跨场景泛化方面都优于现有方法,证明了其作为3D城市场景理解的灵活且可扩展的解决方案的潜力。

🔬 方法详解

问题定义:现有的大规模城市点云语义分割方法通常依赖于预定义的标签集,无法识别和分割未出现在训练集中的新颖物体类别。此外,这些方法往往需要高质量的多视角图像进行辅助,而这些图像在大规模城市点云数据集中通常难以获取或对齐。现有3D分割模型在不同城市环境下的泛化能力也较差,难以适应几何、尺度和外观的显著差异。

核心思路:OpenUrban3D的核心思路是利用视觉-语言模型(Vision-Language Models, VLMs)的强大语义理解能力,直接从原始点云中提取语义特征,并将其与文本描述进行对齐,从而实现开放词汇的语义分割。该方法通过多视角渲染将3D点云转换为2D图像,然后利用VLMs提取图像的语义特征,并将其融合到3D点云中。这种方法无需预训练的点云分割网络或手动标注,即可实现零样本的语义分割。

技术框架:OpenUrban3D的整体框架包括以下几个主要模块:1) 多视角、多粒度渲染:从不同的视角渲染点云,生成多张2D图像,并采用不同的渲染粒度(例如,点、体素)以捕获不同尺度的几何信息。2) 掩码级视觉-语言特征提取:利用预训练的VLMs(例如,CLIP)提取渲染图像的语义特征,并使用掩码信息来关注图像中的特定区域。3) 样本平衡融合:对不同视角的特征进行融合,并采用样本平衡策略来缓解类别不平衡问题。4) 知识蒸馏:将提取的语义特征蒸馏到3D骨干模型中,以提高模型的分割性能。

关键创新:OpenUrban3D的关键创新在于其无需标注和预训练,即可实现大规模城市点云的开放词汇语义分割。该方法通过多视角渲染和视觉-语言特征提取,将2D图像的语义信息迁移到3D点云中,从而克服了传统方法对标注数据的依赖。此外,该方法还采用了样本平衡融合和知识蒸馏等技术,进一步提高了模型的分割精度和泛化能力。

关键设计:在多视角渲染方面,论文采用了多个视角的渲染,并使用了点和体素两种渲染方式,以捕获不同尺度的几何信息。在视觉-语言特征提取方面,论文使用了预训练的CLIP模型,并使用了掩码信息来关注图像中的特定区域。在样本平衡融合方面,论文采用了加权损失函数来缓解类别不平衡问题。在知识蒸馏方面,论文使用了L1损失函数来约束3D骨干模型的输出。

📊 实验亮点

OpenUrban3D在SensatUrban和SUM等大规模城市点云数据集上进行了实验,结果表明,该方法在分割精度和跨场景泛化方面都优于现有方法。例如,在SensatUrban数据集上,OpenUrban3D的平均IoU(Intersection over Union)比现有方法提高了5%以上,证明了其有效性。

🎯 应用场景

OpenUrban3D在智慧城市、数字孪生、城市规划和自动驾驶等领域具有广泛的应用前景。它可以用于自动识别和分割城市中的各种物体,例如建筑物、道路、树木、车辆等,从而为城市管理和规划提供更准确、更全面的信息。此外,OpenUrban3D还可以用于自动驾驶汽车的环境感知,帮助车辆更好地理解周围环境,提高行驶安全性。

📄 摘要(原文)

Open-vocabulary semantic segmentation enables models to recognize and segment objects from arbitrary natural language descriptions, offering the flexibility to handle novel, fine-grained, or functionally defined categories beyond fixed label sets. While this capability is crucial for large-scale urban point clouds that support applications such as digital twins, smart city management, and urban analytics, it remains largely unexplored in this domain. The main obstacles are the frequent absence of high-quality, well-aligned multi-view imagery in large-scale urban point cloud datasets and the poor generalization of existing three-dimensional (3D) segmentation pipelines across diverse urban environments with substantial variation in geometry, scale, and appearance. To address these challenges, we present OpenUrban3D, the first 3D open-vocabulary semantic segmentation framework for large-scale urban scenes that operates without aligned multi-view images, pre-trained point cloud segmentation networks, or manual annotations. Our approach generates robust semantic features directly from raw point clouds through multi-view, multi-granularity rendering, mask-level vision-language feature extraction, and sample-balanced fusion, followed by distillation into a 3D backbone model. This design enables zero-shot segmentation for arbitrary text queries while capturing both semantic richness and geometric priors. Extensive experiments on large-scale urban benchmarks, including SensatUrban and SUM, show that OpenUrban3D achieves significant improvements in both segmentation accuracy and cross-scene generalization over existing methods, demonstrating its potential as a flexible and scalable solution for 3D urban scene understanding.