Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds

作者: Bin Yang, Mohamed Abdelsamad, Miao Zhang, Alexandru Paul Condurache

分类: cs.CV

发布日期: 2026-03-26

备注: The paper was accepted by CVPR2026

💡 一句话要点

PointINS：面向点云实例感知的自监督学习，提升3D场景理解能力

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 点云 自监督学习 实例分割 全景分割 3D场景理解 几何感知 偏移预测

📋 核心要点

现有自监督点云学习方法在实例定位方面表现不足，限制了其作为通用3D基础模型的能力。
PointINS通过引入正交偏移分支，联合学习语义理解和几何推理，从而增强点云表示的实例感知能力。
实验结果表明，PointINS在实例分割和全景分割任务上均取得了显著的性能提升，验证了其有效性。

📝 摘要（中文）

本文提出了一种名为PointINS的实例导向自监督学习框架，旨在通过几何感知学习来丰富点云表示，从而提升3D场景理解能力。现有方法侧重语义感知，但实例定位效果不佳，通常需要完全微调才能获得良好性能。PointINS采用正交偏移分支，联合学习高层语义理解和几何推理，从而实现实例感知。论文提出了两种一致性属性，并将它们形式化为互补的正则化策略：偏移分布正则化（ODR），使预测偏移与经验观察到的几何先验对齐；空间聚类正则化（SCR），通过伪实例掩码正则化偏移，从而加强局部一致性。在五个数据集上的大量实验表明，PointINS在室内实例分割方面平均提高了+3.5% mAP，在室外全景分割方面平均提高了+4.1% PQ，为可扩展的3D基础模型铺平了道路。

🔬 方法详解

问题定义：现有基于点云的自监督学习方法主要关注语义信息的学习，例如通过跨视角特征一致性或掩码场景建模。然而，这些方法在实例定位任务上的表现较差，通常需要大量的微调才能达到较好的效果。这限制了它们在更广泛的3D场景理解任务中的应用，阻碍了3D基础模型的发展。

核心思路：PointINS的核心思路是通过引入实例感知能力来增强点云的表示。具体来说，它通过学习每个点的偏移量，将属于同一个实例的点聚集在一起。这种方法能够同时学习高层语义信息和几何信息，从而提高实例定位的准确性。

技术框架：PointINS框架包含一个主干网络（例如PointNet++）和一个正交偏移分支。主干网络用于提取点云的特征表示，偏移分支用于预测每个点的偏移量。框架还包括两个正则化策略：偏移分布正则化（ODR）和空间聚类正则化（SCR）。ODR用于约束预测的偏移量与经验观察到的几何先验对齐，SCR用于增强局部偏移量的一致性。整个框架通过自监督的方式进行训练，无需人工标注。

关键创新：PointINS的关键创新在于引入了实例感知的自监督学习方法。通过联合学习语义信息和几何信息，PointINS能够更好地进行实例定位。此外，ODR和SCR正则化策略能够有效地提高偏移量预测的准确性和鲁棒性。

关键设计：偏移分支采用多层感知机（MLP）结构，用于预测每个点的三维偏移量。ODR正则化通过最小化预测偏移量与预定义的几何先验之间的差异来实现。SCR正则化通过使用伪实例掩码来约束局部偏移量的一致性。损失函数包括语义损失、偏移损失、ODR损失和SCR损失。框架使用Adam优化器进行训练。

🖼️ 关键图片

📊 实验亮点

PointINS在五个数据集上进行了广泛的实验，结果表明其在室内实例分割和室外全景分割任务上均取得了显著的性能提升。具体来说，PointINS在室内实例分割方面平均提高了+3.5% mAP，在室外全景分割方面平均提高了+4.1% PQ。这些结果表明，PointINS能够有效地提高点云表示的实例感知能力，从而提升3D场景理解的性能。

🎯 应用场景

PointINS的研究成果可广泛应用于机器人导航、自动驾驶、增强现实等领域。通过提升3D场景理解能力，PointINS能够帮助机器人更好地感知周围环境，从而实现更安全、更高效的自主导航。在自动驾驶领域，PointINS可以提高车辆对行人、车辆等目标的检测和跟踪精度，从而提高驾驶安全性。在增强现实领域，PointINS可以实现更精确的3D场景重建，从而提供更逼真的增强现实体验。

📄 摘要（原文）

Recent advances in self-supervised learning (SSL) for point clouds have substantially improved 3D scene understanding without human annotations. Existing approaches emphasize semantic awareness by enforcing feature consistency across augmented views or by masked scene modeling. However, the resulting representations transfer poorly to instance localization, and often require full finetuning for strong performance. Instance awareness is a fundamental component of 3D perception, thus bridging this gap is crucial for progressing toward true 3D foundation models that support all downstream tasks on 3D data. In this work, we introduce PointINS, an instance-oriented self-supervised framework that enriches point cloud representations through geometry-aware learning. PointINS employs an orthogonal offset branch to jointly learn high-level semantic understanding and geometric reasoning, yielding instance awareness. We identify two consistent properties essential for robust instance localization and formulate them as complementary regularization strategies, Offset Distribution Regularization (ODR), which aligns predicted offsets with empirically observed geometric priors, and Spatial Clustering Regularization (SCR), which enforces local coherence by regularizing offsets with pseudo-instance masks. Through extensive experiments across five datasets, PointINS achieves on average +3.5% mAP improvement for indoor instance segmentation and +4.1% PQ gain for outdoor panoptic segmentation, paving the way for scalable 3D foundation models.

Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理