Details Matter for Indoor Open-vocabulary 3D Instance Segmentation

📄 arXiv: 2507.23134v1 📥 PDF

作者: Sanghun Jung, Jingjing Zheng, Ke Zhang, Nan Qiao, Albert Y. C. Chen, Lu Xia, Chi Liu, Yuyin Sun, Xiao Zeng, Hsiang-Wei Huang, Byron Boots, Min Sun, Cheng-Hao Kuo

分类: cs.CV

发布日期: 2025-07-30

备注: ICCV 2025


💡 一句话要点

针对室内开放词汇3D实例分割,提出细节增强方案,显著提升性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇3D实例分割 视觉-语言模型 3D提案生成 实例分类 Alpha-CLIP 标准化最大相似度 室内场景理解

📋 核心要点

  1. 现有开放词汇3D实例分割方法依赖视觉-语言模型,但缺乏对细节的有效处理,导致性能瓶颈。
  2. 本文提出结合多种互补概念的方案,并针对性地优化提案生成和分类阶段,提升整体性能。
  3. 实验表明,该框架在ScanNet200和S3DIS数据集上均超越现有技术,包括端到端闭集词汇方法。

📝 摘要(中文)

本文提出了一种新的室内开放词汇3D实例分割(OV-3DIS)解决方案,该方案通过精心设计的流程,结合并优化现有研究中的多种概念,从而达到目前最优的性能。该方案遵循两阶段模式:3D提案生成和实例分类。在提案生成阶段,我们采用基于鲁棒3D跟踪的提案聚合方法来生成3D提案,并通过迭代合并/移除来消除重叠或部分提案。在分类阶段,我们用Alpha-CLIP替换了标准的CLIP模型,Alpha-CLIP将对象掩码作为alpha通道,以减少背景噪声并获得以对象为中心的表示。此外,我们引入了标准化最大相似度(SMS)得分来标准化文本到提案的相似度,从而有效地过滤掉假阳性并提高精度。我们的框架在ScanNet200和S3DIS数据集上,在所有AP和AR指标上都实现了最先进的性能,甚至超过了端到端的闭集词汇方法。

🔬 方法详解

问题定义:开放词汇3D实例分割旨在识别和分割场景中具有开放词汇描述的3D对象实例。现有方法通常依赖于视觉-语言模型(VLMs)生成3D提案并进行分类,但忽略了对细节信息的有效利用,例如背景噪声的干扰、提案的重叠或不完整等问题,导致精度受限。

核心思路:本文的核心思路是通过精细化处理3D提案生成和实例分类两个阶段,充分利用细节信息来提升整体性能。具体而言,通过鲁棒的3D跟踪进行提案聚合,减少提案冗余;利用Alpha-CLIP减少背景噪声,获得更纯粹的对象表示;引入标准化最大相似度(SMS)得分来过滤假阳性,提高分类精度。

技术框架:该框架采用两阶段流程:首先是3D提案生成阶段,然后是实例分类阶段。在提案生成阶段,利用3D跟踪技术对点云进行分割,并聚合相邻帧的分割结果,生成初始的3D提案。然后,通过迭代合并和移除操作,消除重叠或不完整的提案。在实例分类阶段,使用Alpha-CLIP模型提取提案的视觉特征,并计算其与文本描述的相似度。最后,利用SMS得分对相似度进行标准化,并根据阈值进行分类。

关键创新:本文的关键创新在于对细节信息的关注和利用。具体包括:1) 使用鲁棒的3D跟踪进行提案聚合,减少提案冗余;2) 引入Alpha-CLIP模型,通过对象掩码减少背景噪声,获得更纯粹的对象表示;3) 提出SMS得分,用于标准化文本到提案的相似度,有效过滤假阳性。这些创新点共同提升了OV-3DIS的性能。

关键设计:在提案生成阶段,3D跟踪算法的选择和参数设置至关重要,需要保证跟踪的鲁棒性和精度。在Alpha-CLIP模型中,对象掩码的生成方式和融合策略需要仔细设计,以最大程度地减少背景噪声。SMS得分的计算方式和阈值设置需要根据数据集进行调整,以达到最佳的过滤效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该框架在ScanNet200和S3DIS数据集上取得了state-of-the-art的性能,在所有AP和AR指标上均超越了现有方法,甚至超过了端到端的闭集词汇方法。这表明该框架在开放词汇3D实例分割任务上具有显著的优势和潜力。

🎯 应用场景

该研究成果可应用于室内机器人导航、智能家居、增强现实等领域。例如,机器人可以利用该技术理解室内环境,识别和操作各种物体;智能家居系统可以根据用户的语音指令,自动识别和控制家电设备;AR应用可以将虚拟物体与真实场景中的物体进行精确对齐和交互。

📄 摘要(原文)

Unlike closed-vocabulary 3D instance segmentation that is often trained end-to-end, open-vocabulary 3D instance segmentation (OV-3DIS) often leverages vision-language models (VLMs) to generate 3D instance proposals and classify them. While various concepts have been proposed from existing research, we observe that these individual concepts are not mutually exclusive but complementary. In this paper, we propose a new state-of-the-art solution for OV-3DIS by carefully designing a recipe to combine the concepts together and refining them to address key challenges. Our solution follows the two-stage scheme: 3D proposal generation and instance classification. We employ robust 3D tracking-based proposal aggregation to generate 3D proposals and remove overlapped or partial proposals by iterative merging/removal. For the classification stage, we replace the standard CLIP model with Alpha-CLIP, which incorporates object masks as an alpha channel to reduce background noise and obtain object-centric representation. Additionally, we introduce the standardized maximum similarity (SMS) score to normalize text-to-proposal similarity, effectively filtering out false positives and boosting precision. Our framework achieves state-of-the-art performance on ScanNet200 and S3DIS across all AP and AR metrics, even surpassing an end-to-end closed-vocabulary method.