Data-Efficient Semantic Segmentation of 3D Point Clouds via Open-Vocabulary Image Segmentation-based Pseudo-Labeling

作者: Takahiko Furuya

分类: cs.CV

发布日期: 2026-04-13

💡 一句话要点

提出PLOVIS，利用开放词汇图像分割进行3D点云语义分割，解决数据稀缺问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D点云语义分割 数据高效学习 伪标签 开放词汇图像分割 弱监督学习

📋 核心要点

现有3D点云语义分割方法在训练数据稀缺，标注不足，且缺乏对应2D图像序列时表现不佳，无法同时解决这三重挑战。
PLOVIS利用开放词汇图像分割模型生成伪标签，直接从3D点云生成2D图像进行伪标签，无需额外的2D图像序列。
PLOVIS采用两阶段过滤机制和类别平衡记忆库，有效降低伪标签噪声和类别不平衡问题，提升模型训练效果。

📝 摘要（中文）

三维点云场景的语义分割在各种应用中至关重要。在现实场景中，训练分割模型通常面临三种并发的数据不足形式：训练场景的稀缺、点级标注的稀缺，以及重建点云所用的二维图像序列的缺失。现有的数据高效算法通常只解决其中一个或两个挑战，而未曾探索同时处理这三种情况。本文提出了一个专门设计用于解决这三种数据不足形式的数据高效训练框架。我们提出的算法，称为基于开放词汇图像分割的点伪标签（PLOVIS），利用开放词汇图像分割（OVIS）模型作为伪标签生成器，以弥补训练数据的不足。PLOVIS直接从训练三维点云创建用于伪标签的二维图像，无需二维图像序列。为了减轻伪标签中固有的噪声和类别不平衡，我们引入了一个两阶段的伪标签过滤，并结合一个类别平衡的记忆库来进行有效的训练。两阶段过滤机制首先移除低置信度的伪标签，然后丢弃可能不正确的伪标签，从而提高伪标签的质量。在四个基准数据集（即ScanNet、S3DIS、Toronto3D和Semantic3D）上，在真实的数据稀缺条件下（几十个训练三维场景，每个场景仅标注<100个三维点）进行的实验表明，PLOVIS始终优于现有的方法，包括标准微调策略和最先进的弱监督学习算法。

🔬 方法详解

问题定义：论文旨在解决3D点云语义分割中数据稀缺的问题，具体表现为训练场景少、点云标注稀疏以及缺乏对应的2D图像序列。现有方法通常只能解决其中一种或两种数据不足的情况，无法同时应对这三种挑战，导致模型性能受限。

核心思路：论文的核心思路是利用开放词汇图像分割（OVIS）模型生成伪标签，从而扩充训练数据。通过直接从3D点云生成2D图像，避免了对额外2D图像序列的依赖。同时，采用两阶段过滤和类别平衡记忆库来提高伪标签的质量，减轻噪声和类别不平衡的影响。

技术框架：PLOVIS框架主要包含以下几个步骤：1) 从3D点云生成2D图像；2) 使用OVIS模型对2D图像进行语义分割，生成伪标签；3) 使用两阶段过滤机制去除低质量的伪标签；4) 利用类别平衡记忆库对伪标签进行加权，缓解类别不平衡问题；5) 使用过滤后的伪标签训练3D点云语义分割模型。

关键创新：PLOVIS的关键创新在于：1) 提出了一种新的伪标签生成方法，可以直接从3D点云生成2D图像，无需额外的2D图像序列；2) 引入了一种两阶段过滤机制，可以有效去除低质量的伪标签；3) 采用类别平衡记忆库，缓解了伪标签中的类别不平衡问题。

关键设计：两阶段过滤机制首先根据OVIS模型的置信度得分去除低置信度的伪标签。然后，通过计算每个点与其邻域内其他点的标签一致性，去除可能错误的伪标签。类别平衡记忆库维护每个类别的平均特征向量，用于对伪标签进行加权，使得模型更加关注稀有类别。

📊 实验亮点

PLOVIS在ScanNet、S3DIS、Toronto3D和Semantic3D四个基准数据集上进行了实验，结果表明，在数据极度稀缺的情况下（几十个训练场景，每个场景仅标注<100个点），PLOVIS始终优于现有的微调策略和最先进的弱监督学习算法，证明了其在数据高效3D点云语义分割方面的优越性。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、城市建模等领域。在这些场景中，获取高质量的3D点云标注数据成本高昂，而PLOVIS能够利用少量标注数据和开放词汇图像分割模型，有效提升3D点云语义分割的性能，降低对大量标注数据的依赖，具有重要的实际应用价值和推广前景。

📄 摘要（原文）

Semantic segmentation of 3D point cloud scenes is a crucial task for various applications. In real-world scenarios, training segmentation models often faces three concurrent forms of data insufficiency: scarcity of training scenes, scarcity of point-level annotations, and absence of 2D image sequences from which point clouds were reconstructed. Existing data-efficient algorithms typically address only one or two of these challenges, leaving the joint treatment of all three unexplored. This paper proposes a data-efficient training framework specifically designed to address the three forms of data insufficiency. Our proposed algorithm, called Point pseudo-Labeling via Open-Vocabulary Image Segmentation (PLOVIS), leverages an Open-Vocabulary Image Segmentation (OVIS) model as a pseudo label generator to compensate for the lack of training data. PLOVIS creates 2D images for pseudo-labeling directly from training 3D point clouds, eliminating the need for 2D image sequences. To mitigate the inherent noise and class imbalance in pseudo labels, we introduce a two-stage filtering of pseudo labels combined with a class-balanced memory bank for effective training. The two-stage filtering mechanism first removes low-confidence pseudo labels, then discards likely incorrect pseudo labels, thereby enhancing the quality of pseudo labels. Experiments on four benchmark datasets, i.e., ScanNet, S3DIS, Toronto3D, and Semantic3D, under realistic data-scarce conditions (a few tens of training 3D scenes, each annotated with only <100 3D points) demonstrate that PLOVIS consistently outperforms existing methods including standard fine-tuning strategies and state-of-the-art weakly supervised learning algorithms. Code will be made publicly available.

Data-Efficient Semantic Segmentation of 3D Point Clouds via Open-Vocabulary Image Segmentation-based Pseudo-Labeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理