OpenTrack3D: Towards Accurate and Generalizable Open-Vocabulary 3D Instance Segmentation

作者: Zhishan Zhou, Siyuan Wei, Zengran Wang, Chunjie Wang, Xiaosheng Yan, Xiao Liu

分类: cs.CV

发布日期: 2025-12-03

💡 一句话要点

OpenTrack3D：面向精确和泛化的开放词汇3D实例分割

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 开放词汇3D实例分割 无网格方法 视觉-空间跟踪 多模态大语言模型 机器人 AR/VR DINO特征

📋 核心要点

现有开放词汇3D实例分割方法依赖数据集特定proposal网络或网格，泛化性受限，且CLIP文本推理能力弱，难以处理复杂查询。
OpenTrack3D提出一种新颖的视觉-空间跟踪器，在线构建跨视图一致的对象proposal，并用MLLM增强组合推理能力。
在ScanNet200等多个数据集上，OpenTrack3D取得了state-of-the-art的性能，并展现出强大的泛化能力。

📝 摘要（中文）

将开放词汇3D实例分割（OV-3DIS）推广到多样、非结构化和无网格环境对于机器人和AR/VR至关重要，但仍然是一个重大挑战。我们认为这归因于现有方法的两个关键限制：（1）proposal生成依赖于数据集特定的proposal网络或基于网格的超点，使其不适用于无网格场景，并限制了对新场景的泛化；（2）基于CLIP的分类器在文本推理方面的不足，难以识别组合和功能性用户查询。为了解决这些问题，我们提出了OpenTrack3D，一个通用且精确的框架。与依赖于预生成proposal的方法不同，OpenTrack3D采用了一种新颖的视觉-空间跟踪器来在线构建跨视图一致的对象proposal。给定RGB-D流，我们的pipeline首先利用2D开放词汇分割器生成mask，然后使用深度信息将其提升到3D点云。然后使用DINO特征图提取mask引导的实例特征，我们的跟踪器融合视觉和空间线索以保持实例一致性。核心pipeline完全是无网格的，但我们也提供了一个可选的超点细化模块，以在场景网格可用时进一步提高性能。最后，我们用多模态大型语言模型（MLLM）替换CLIP，显著增强了复杂用户查询的组合推理能力。在包括ScanNet200、Replica、ScanNet++和SceneFun3D在内的各种benchmark上的大量实验表明，该方法具有最先进的性能和强大的泛化能力。

🔬 方法详解

问题定义：论文旨在解决开放词汇3D实例分割（OV-3DIS）在多样、非结构化和无网格环境下的泛化性问题。现有方法依赖于数据集特定的proposal网络或基于网格的超点，导致无法应用于无网格场景，并且基于CLIP的分类器在处理复杂的用户查询时表现不佳。

核心思路：OpenTrack3D的核心思路是通过一个视觉-空间跟踪器在线生成跨视图一致的对象proposal，避免了对预定义proposal的依赖。同时，使用多模态大型语言模型（MLLM）替换CLIP，以增强对复杂用户查询的理解和推理能力。

技术框架：OpenTrack3D的整体框架包含以下几个主要阶段：1) 使用2D开放词汇分割器从RGB-D流中生成mask；2) 利用深度信息将2D mask提升到3D点云；3) 使用DINO特征图提取mask引导的实例特征；4) 使用视觉-空间跟踪器融合视觉和空间线索，保持实例一致性；5) (可选) 使用超点细化模块进一步提高性能（当场景网格可用时）；6) 使用MLLM进行最终的实例分类。

关键创新：OpenTrack3D的关键创新在于：1) 提出了一个无网格的视觉-空间跟踪器，能够在线生成高质量的对象proposal，避免了对预定义proposal的依赖，从而提高了泛化能力；2) 使用MLLM替换CLIP，显著增强了对复杂用户查询的组合推理能力。

关键设计：视觉-空间跟踪器融合了视觉特征（DINO特征）和空间信息（点云坐标），通过卡尔曼滤波等方法进行跟踪和更新。MLLM的使用涉及prompt工程和微调策略，以适应3D实例分割任务。损失函数的设计可能包括分割损失、跟踪损失和分类损失等。

📊 实验亮点

OpenTrack3D在ScanNet200、Replica、ScanNet++和SceneFun3D等多个数据集上取得了state-of-the-art的性能，证明了其优越的性能和泛化能力。具体性能数据未知，但论文强调了其在复杂场景和用户查询下的显著提升。

🎯 应用场景

OpenTrack3D在机器人、AR/VR等领域具有广泛的应用前景。例如，机器人可以利用该技术在未知环境中识别和分割物体，从而实现自主导航和操作。在AR/VR中，该技术可以用于增强现实体验，例如允许用户与虚拟物体进行交互。

📄 摘要（原文）

Generalizing open-vocabulary 3D instance segmentation (OV-3DIS) to diverse, unstructured, and mesh-free environments is crucial for robotics and AR/VR, yet remains a significant challenge. We attribute this to two key limitations of existing methods: (1) proposal generation relies on dataset-specific proposal networks or mesh-based superpoints, rendering them inapplicable in mesh-free scenarios and limiting generalization to novel scenes; and (2) the weak textual reasoning of CLIP-based classifiers, which struggle to recognize compositional and functional user queries. To address these issues, we introduce OpenTrack3D, a generalizable and accurate framework. Unlike methods that rely on pre-generated proposals, OpenTrack3D employs a novel visual-spatial tracker to construct cross-view consistent object proposals online. Given an RGB-D stream, our pipeline first leverages a 2D open-vocabulary segmenter to generate masks, which are lifted to 3D point clouds using depth. Mask-guided instance features are then extracted using DINO feature maps, and our tracker fuses visual and spatial cues to maintain instance consistency. The core pipeline is entirely mesh-free, yet we also provide an optional superpoints refinement module to further enhance performance when scene mesh is available. Finally, we replace CLIP with a multi-modal large language model (MLLM), significantly enhancing compositional reasoning for complex user queries. Extensive experiments on diverse benchmarks, including ScanNet200, Replica, ScanNet++, and SceneFun3D, demonstrate state-of-the-art performance and strong generalization capabilities.

OpenTrack3D: Towards Accurate and Generalizable Open-Vocabulary 3D Instance Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册