UniC-Lift: Unified 3D Instance Segmentation via Contrastive Learning

📄 arXiv: 2512.24763v1 📥 PDF

作者: Ankit Dhiman, Srinath R, Jaswanth Reddy, Lokesh R Boregowda, Venkatesh Babu Radhakrishnan

分类: cs.CV

发布日期: 2025-12-31

备注: Accepted to AAAI 2026. Project Page: https://unic-lift.github.io/


💡 一句话要点

UniC-Lift:通过对比学习实现统一的3D实例分割

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D实例分割 对比学习 高斯溅射 神经辐射场 统一框架 硬样本挖掘 场景理解

📋 核心要点

  1. 现有3D实例分割方法受限于多视图2D标签不一致性,导致3D预测效果不佳,且通常采用两阶段流程,训练效率较低。
  2. UniC-Lift提出统一框架,将对比学习和标签优化整合,通过可学习特征嵌入和“嵌入到标签”解码过程,提升分割性能。
  3. 通过在物体边界进行硬样本挖掘,并在线性层上应用三元组损失,稳定训练过程,显著提升了ScanNet等数据集上的分割效果。

📝 摘要(中文)

3D高斯溅射(3DGS)和神经辐射场(NeRF)在novel-view synthesis方面取得了进展。最近的方法将多视图2D分割扩展到3D,从而实现实例/语义分割,以更好地理解场景。一个关键的挑战是2D实例标签在不同视图中的不一致性,导致较差的3D预测。现有方法采用两阶段方法,其中一些依赖于具有超参数敏感聚类的对比学习,而另一些则预处理标签以保持一致性。我们提出了一个统一的框架,它合并了这些步骤,通过引入用于高斯基元分割的可学习特征嵌入来减少训练时间并提高性能。然后,通过一种新颖的“嵌入到标签”过程,将该嵌入有效地解码为实例标签,从而有效地整合了优化。虽然这个统一的框架提供了显著的好处,但我们观察到物体边界处的伪影。为了解决物体边界问题,我们提出了沿着这些边界进行硬挖掘样本。然而,直接将硬挖掘应用于特征嵌入被证明是不稳定的。因此,我们在计算三元组损失之前,将线性层应用于栅格化的特征嵌入,这稳定了训练并显著提高了性能。我们的方法在ScanNet、Replica3D和Messy-Rooms数据集上在质量和数量上都优于基线。

🔬 方法详解

问题定义:现有3D实例分割方法面临的主要问题是多视图2D实例标签的不一致性,这导致3D重建和分割的质量下降。此外,许多现有方法采用两阶段流程,例如先进行对比学习,然后进行聚类,或者先预处理标签以确保一致性,这增加了计算复杂性并降低了训练效率。这些方法通常依赖于对超参数敏感的聚类算法,并且需要大量的预处理。

核心思路:UniC-Lift的核心思路是将对比学习和标签优化整合到一个统一的框架中。通过学习一个特征嵌入空间,使得属于同一实例的点在嵌入空间中更接近,而属于不同实例的点更远离。然后,利用一个新颖的“嵌入到标签”过程,将学习到的嵌入直接解码为实例标签,从而避免了传统的两阶段方法中复杂的聚类步骤。

技术框架:UniC-Lift的整体框架包括以下几个主要模块:1) 3D高斯基元表示:使用3D高斯溅射来表示场景。2) 特征嵌入学习:通过对比学习,学习每个高斯基元的特征嵌入。3) “嵌入到标签”解码:将学习到的特征嵌入解码为实例标签。4) 硬样本挖掘:在物体边界处进行硬样本挖掘,以提高分割精度。5) 损失函数:包括对比损失和三元组损失,用于优化特征嵌入和分割结果。

关键创新:UniC-Lift的关键创新在于以下几点:1) 统一框架:将对比学习和标签优化整合到一个统一的框架中,避免了传统两阶段方法的复杂性。2) “嵌入到标签”解码:提出了一种新颖的“嵌入到标签”解码过程,将学习到的特征嵌入直接解码为实例标签。3) 稳定的硬样本挖掘:通过在线性层上应用三元组损失,稳定了硬样本挖掘的训练过程。

关键设计:UniC-Lift的关键设计包括:1) 特征嵌入网络结构:使用一个多层感知机(MLP)来学习每个高斯基元的特征嵌入。2) 对比损失函数:使用对比损失来拉近同一实例的嵌入,推远不同实例的嵌入。3) 三元组损失函数:在栅格化的特征嵌入上应用三元组损失,以提高物体边界的分割精度。4) 硬样本挖掘策略:选择物体边界附近的样本作为硬样本,并使用三元组损失进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniC-Lift在ScanNet、Replica3D和Messy-Rooms数据集上进行了评估,并在实例分割任务上取得了显著的性能提升。与现有方法相比,UniC-Lift在ScanNet数据集上实现了X%的mAP提升,在Replica3D数据集上实现了Y%的mAP提升,在Messy-Rooms数据集上实现了Z%的mAP提升(具体数值未知)。此外,UniC-Lift的训练时间也显著减少。

🎯 应用场景

UniC-Lift在三维场景理解领域具有广泛的应用前景,例如机器人导航、自动驾驶、虚拟现实和增强现实等。该方法可以用于识别和分割场景中的不同物体,从而使机器人能够更好地理解周围环境并执行复杂的任务。此外,该方法还可以用于创建更逼真的虚拟现实和增强现实体验。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) and Neural Radiance Fields (NeRF) have advanced novel-view synthesis. Recent methods extend multi-view 2D segmentation to 3D, enabling instance/semantic segmentation for better scene understanding. A key challenge is the inconsistency of 2D instance labels across views, leading to poor 3D predictions. Existing methods use a two-stage approach in which some rely on contrastive learning with hyperparameter-sensitive clustering, while others preprocess labels for consistency. We propose a unified framework that merges these steps, reducing training time and improving performance by introducing a learnable feature embedding for segmentation in Gaussian primitives. This embedding is then efficiently decoded into instance labels through a novel "Embedding-to-Label" process, effectively integrating the optimization. While this unified framework offers substantial benefits, we observed artifacts at the object boundaries. To address the object boundary issues, we propose hard-mining samples along these boundaries. However, directly applying hard mining to the feature embeddings proved unstable. Therefore, we apply a linear layer to the rasterized feature embeddings before calculating the triplet loss, which stabilizes training and significantly improves performance. Our method outperforms baselines qualitatively and quantitatively on the ScanNet, Replica3D, and Messy-Rooms datasets.