PointGS: Semantic-Consistent Unsupervised 3D Point Cloud Segmentation with 3D Gaussian Splatting
作者: Yixiao Song, Qingyong Li, Wen Wang, Zhicheng Yan
分类: cs.CV, cs.AI
发布日期: 2026-05-12
备注: Accepted by Computer Vision and Pattern Recognition (CVPR) 2026
💡 一句话要点
PointGS:利用3D高斯溅射实现语义一致的无监督3D点云分割
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 无监督学习 点云分割 3D高斯溅射 语义一致性 对比学习
📋 核心要点
- 现有无监督点云分割方法在利用2D预训练模型时,面临离散3D点与连续2D图像不匹配的问题,导致语义一致性降低。
- PointGS利用3D高斯溅射作为中间表示,将稀疏点云重建为密集高斯空间,从而弥合离散-连续域的差距,提升语义一致性。
- 实验结果表明,PointGS在ScanNet-V2和S3DIS数据集上均优于现有无监督方法,证明了其有效性。
📝 摘要(中文)
无监督点云分割对于具身人工智能和自动驾驶至关重要,因为它减轻了完全监督方法所需的大量点级标注成本。虽然集成2D预训练模型(如SAM)来补充语义信息是一个自然的选择,但这种方法面临着离散3D点和连续2D图像之间的根本不匹配。这种不匹配导致不可避免的投影重叠和复杂的模态对齐,从而导致2D-3D传输过程中语义一致性的降低。为了解决这些限制,本文提出了一种简单而有效的无监督3D点云分割流程PointGS。PointGS利用3D高斯溅射作为统一的中间表示来弥合离散-连续域的差距。首先通过多视角观测将输入的稀疏点云重建为密集的3D高斯空间,填充空间间隙并编码遮挡关系,以消除投影引起的语义混淆。从高斯空间渲染多视角密集图像,通过SAM提取2D语义掩码,并通过对比学习将语义提炼到3D高斯基元,以确保不同视图之间语义分配的一致性。通过两步配准将高斯空间与原始点云对齐,并通过标记高斯上的最近邻搜索来分配点语义。实验表明,PointGS优于最先进的无监督方法,在ScanNet-V2上实现了+0.9%的mIoU,在S3DIS上实现了+2.8%的mIoU。
🔬 方法详解
问题定义:现有的无监督点云分割方法,特别是那些试图利用2D预训练模型(如SAM)的方法,在将2D语义信息转移到3D点云时,面临着严重的语义不一致问题。这是由于3D点云的离散性和2D图像的连续性之间的根本差异造成的。直接将2D语义信息投影到3D点云会导致投影重叠、遮挡和复杂的模态对齐问题,最终损害分割的准确性和一致性。
核心思路:PointGS的核心思路是使用3D高斯溅射(3D Gaussian Splatting)作为统一的中间表示,来弥合离散3D点云和连续2D图像之间的差距。通过将稀疏点云重建为密集的3D高斯空间,可以填充空间间隙,编码遮挡关系,并消除投影引起的语义混淆。然后,可以从高斯空间渲染多视角密集图像,并利用2D预训练模型提取语义信息。
技术框架:PointGS的整体流程包括以下几个主要阶段:1) 3D高斯空间重建:利用多视角观测将输入的稀疏点云重建为密集的3D高斯空间。2) 2D语义提取:从高斯空间渲染多视角密集图像,并使用SAM等2D预训练模型提取语义掩码。3) 语义提炼:通过对比学习将2D语义信息提炼到3D高斯基元,以确保不同视图之间语义分配的一致性。4) 点云语义分配:通过两步配准将高斯空间与原始点云对齐,并通过标记高斯上的最近邻搜索来分配点语义。
关键创新:PointGS的关键创新在于使用3D高斯溅射作为中间表示,从而有效地解决了离散-连续域之间的语义不一致问题。与直接将2D语义信息投影到3D点云的方法相比,PointGS通过重建密集的高斯空间,更好地处理了遮挡、投影重叠和模态对齐等问题,从而提高了分割的准确性和一致性。
关键设计:PointGS的关键设计包括:1) 使用多视角观测进行3D高斯空间重建,以提高重建的质量和密度。2) 使用对比学习来提炼2D语义信息到3D高斯基元,以确保不同视图之间语义分配的一致性。3) 使用两步配准将高斯空间与原始点云对齐,以实现准确的语义分配。具体的损失函数和网络结构等细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
PointGS在ScanNet-V2和S3DIS数据集上取得了显著的性能提升。在ScanNet-V2上,PointGS的mIoU比最先进的无监督方法提高了0.9%。在S3DIS上,PointGS的mIoU比最先进的无监督方法提高了2.8%。这些结果表明,PointGS能够有效地解决离散-连续域之间的语义不一致问题,并提供更准确和一致的3D点云分割结果。
🎯 应用场景
PointGS在具身人工智能和自动驾驶领域具有广泛的应用前景。它可以用于场景理解、物体识别、机器人导航等任务。通过提供更准确和一致的3D点云分割结果,PointGS可以帮助机器人更好地理解周围环境,从而实现更安全和高效的自主行为。此外,该方法还可以应用于三维重建、虚拟现实等领域,提升用户体验。
📄 摘要(原文)
Unsupervised point cloud segmentation is critical for embodied artificial intelligence and autonomous driving, as it mitigates the prohibitive cost of dense point-level annotations required by fully supervised methods. While integrating 2D pre-trained models such as the Segment Anything Model (SAM) to supplement semantic information is a natural choice, this approach faces a fundamental mismatch between discrete 3D points and continuous 2D images. This mismatch leads to inevitable projection overlap and complex modality alignment, resulting in compromised semantic consistency across 2D-3D transfer. To address these limitations, this paper proposes PointGS, a simple yet effective pipeline for unsupervised 3D point cloud segmentation. PointGS leverages 3D Gaussian Splatting as a unified intermediate representation to bridge the discrete-continuous domain gap. Input sparse point clouds are first reconstructed into dense 3D Gaussian spaces via multi-view observations, filling spatial gaps and encoding occlusion relationships to eliminate projection-induced semantic conflation. Multi-view dense images are rendered from the Gaussian space, with 2D semantic masks extracted via SAM, and semantics are distilled to 3D Gaussian primitives through contrastive learning to ensure consistent semantic assignments across different views. The Gaussian space is aligned with the original point cloud via two-step registration, and point semantics are assigned through nearest-neighbor search on labeled Gaussians. Experiments demonstrate that PointGS outperforms state-of-the-art unsupervised methods, achieving +0.9% mIoU on ScanNet-V2 and +2.8% mIoU on S3DIS.