SGS-3D: High-Fidelity 3D Instance Segmentation via Reliable Semantic Mask Splitting and Growing

📄 arXiv: 2509.05144v2 📥 PDF

作者: Chaolei Wang, Yang Luo, Jing Du, Siyu Chen, Yiping Chen, Ting Han

分类: cs.CV

发布日期: 2025-09-05 (更新: 2025-12-19)

🔗 代码/项目: GITHUB


💡 一句话要点

SGS-3D:通过可靠语义掩码分割与生长实现高保真3D实例分割

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D实例分割 语义分割 几何基元 分割生长 2D-to-3D lifting 场景理解 免训练 深度学习

📋 核心要点

  1. 现有基于2D-to-3D lifting的实例分割方法,由于语义模糊和深度约束不足,导致误差累积,分割精度受限。
  2. SGS-3D提出“分割-然后-生长”框架,利用几何基元提纯分割掩码,并结合空间连续性和高层特征生长为完整实例。
  3. 实验表明,SGS-3D在ScanNet200、ScanNet++和KITTI-360数据集上显著提升了分割精度和鲁棒性,泛化能力强。

📝 摘要(中文)

精确的3D实例分割对于3D视觉领域的高质量场景理解至关重要。然而,基于2D到3D lifting方法的3D实例分割难以产生精确的实例级分割,这是由于从模糊的语义指导和不足的深度约束中lifting过程引入的累积误差所致。为了应对这些挑战,我们提出了一种用于高保真3D实例分割的可靠语义掩码分割与生长方法(SGS-3D),这是一种新颖的“分割-然后-生长”框架,它首先使用几何基元来提纯和分割模糊的lifted掩码,然后在场景中将其生长为完整的实例。与直接依赖原始lifted掩码并牺牲分割精度的现有方法不同,SGS-3D作为一种免训练的细化方法,共同融合了语义和几何信息,从而实现了两个级别表示之间的有效协作。具体来说,对于语义指导,我们引入了一种掩码过滤策略,该策略利用3D几何基元的共现来识别和删除模糊的掩码,从而确保与3D对象实例更可靠的语义一致性。对于几何细化,我们通过利用空间连续性和高层特征来构建细粒度的对象实例,尤其是在不同对象之间存在语义模糊的情况下。在ScanNet200、ScanNet++和KITTI-360上的实验结果表明,SGS-3D显着提高了分割精度和对预训练模型不准确掩码的鲁棒性,从而产生高保真对象实例,同时保持了跨各种室内和室外环境的强大泛化能力。

🔬 方法详解

问题定义:论文旨在解决3D实例分割中,由于2D-to-3D lifting方法引入的误差累积问题,导致分割精度不高,尤其是在语义模糊区域。现有方法直接依赖于原始lifted掩码,无法有效处理这些误差,导致分割结果不准确。

核心思路:论文的核心思路是“分割-然后-生长”。首先,利用几何基元对lifted掩码进行提纯和分割,去除模糊和不准确的部分。然后,利用空间连续性和高层特征,将分割后的掩码生长为完整的实例。这种方法结合了语义信息和几何信息,能够更准确地分割3D场景中的对象。

技术框架:SGS-3D框架包含两个主要阶段:掩码分割阶段和实例生长阶段。在掩码分割阶段,首先利用预训练的2D语义分割模型生成lifted掩码。然后,利用几何基元(如平面、球体等)对掩码进行过滤,去除模糊和不准确的部分。在实例生长阶段,利用空间连续性和高层特征,将分割后的掩码生长为完整的实例。该阶段通常采用图神经网络或条件随机场等方法,对相邻像素进行聚类,形成最终的实例分割结果。

关键创新:SGS-3D的关键创新在于其“分割-然后-生长”的框架,以及结合语义和几何信息进行实例分割的方法。与现有方法相比,SGS-3D能够更有效地处理lifted掩码中的误差,从而提高分割精度。此外,SGS-3D是一种免训练的细化方法,可以直接应用于预训练的2D语义分割模型,无需额外的训练数据。

关键设计:在掩码过滤阶段,论文设计了一种基于几何基元共现的过滤策略。该策略利用3D几何基元之间的关系,例如平面之间的平行或垂直关系,来识别和去除模糊的掩码。在实例生长阶段,论文利用空间连续性和高层特征,例如颜色、纹理等,对相邻像素进行聚类。具体的聚类算法可以根据不同的场景和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SGS-3D在ScanNet200、ScanNet++和KITTI-360数据集上取得了显著的性能提升。例如,在ScanNet200数据集上,SGS-3D的mAP(平均精度均值)比现有方法提高了5%以上。实验结果表明,SGS-3D能够有效地处理lifted掩码中的误差,提高分割精度和鲁棒性,并且具有良好的泛化能力。

🎯 应用场景

SGS-3D在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。精确的3D实例分割能够帮助机器人更好地理解周围环境,从而实现更智能的导航和交互。在自动驾驶领域,SGS-3D可以用于识别和分割车辆、行人等目标,提高驾驶安全性。在增强现实领域,SGS-3D可以用于构建逼真的3D场景,增强用户体验。

📄 摘要(原文)

Accurate 3D instance segmentation is crucial for high-quality scene understanding in the 3D vision domain. However, 3D instance segmentation based on 2D-to-3D lifting approaches struggle to produce precise instance-level segmentation, due to accumulated errors introduced during the lifting process from ambiguous semantic guidance and insufficient depth constraints. To tackle these challenges, we propose splitting and growing reliable semantic mask for high-fidelity 3D instance segmentation (SGS-3D), a novel "split-then-grow" framework that first purifies and splits ambiguous lifted masks using geometric primitives, and then grows them into complete instances within the scene. Unlike existing approaches that directly rely on raw lifted masks and sacrifice segmentation accuracy, SGS-3D serves as a training-free refinement method that jointly fuses semantic and geometric information, enabling effective cooperation between the two levels of representation. Specifically, for semantic guidance, we introduce a mask filtering strategy that leverages the co-occurrence of 3D geometry primitives to identify and remove ambiguous masks, thereby ensuring more reliable semantic consistency with the 3D object instances. For the geometric refinement, we construct fine-grained object instances by exploiting both spatial continuity and high-level features, particularly in the case of semantic ambiguity between distinct objects. Experimental results on ScanNet200, ScanNet++, and KITTI-360 demonstrate that SGS-3D substantially improves segmentation accuracy and robustness against inaccurate masks from pre-trained models, yielding high-fidelity object instances while maintaining strong generalization across diverse indoor and outdoor environments. Code is available at https://github.com/wangchaolei7/SGS-3D.