Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation

作者: Junha Lee, Chunghyun Park, Jaesung Choe, Yu-Chiang Frank Wang, Jan Kautz, Minsu Cho, Chris Choy

分类: cs.CV

发布日期: 2025-02-04 (更新: 2025-04-14)

备注: project page: https://nvlabs.github.io/Mosaic3D/

💡 一句话要点

提出Mosaic3D数据集与模型，用于开放词汇3D场景分割

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放词汇分割 3D场景理解 对比学习 数据生成 基础模型

📋 核心要点

现有3D场景理解方法缺乏精确的3D区域分割、全面的文本描述和足够规模的数据集，限制了开放词汇场景理解能力。
论文提出自动数据生成流程，利用先进的图像分割和视觉-语言模型，创建大规模高质量的3D掩码-文本对数据集Mosaic3D-5.6M。
论文构建Mosaic3D基础模型，结合对比学习训练的3D编码器和轻量级掩码解码器，在多个数据集上实现最先进的开放词汇3D分割性能。

📝 摘要（中文）

本文提出了一种新的数据生成流程和训练框架，旨在解决开放词汇3D场景理解问题。该方法着重解决有效训练的三个关键需求：精确的3D区域分割、全面的文本描述以及足够的数据集规模。通过利用最先进的开放词汇图像分割模型和区域感知的视觉-语言模型，开发了一个自动流程，生成高质量的3D掩码-文本对。将此流程应用于多个3D场景数据集，创建了Mosaic3D-5.6M，一个包含超过3万个带注释场景和560万个掩码-文本对的数据集，显著大于现有数据集。在此数据基础上，提出了Mosaic3D，一个基础模型，结合了通过对比学习训练的3D编码器和一个轻量级的掩码解码器，用于开放词汇3D语义和实例分割。该方法在ScanNet200、Matterport3D和ScanNet++等开放词汇3D语义和实例分割任务上取得了最先进的结果，消融研究验证了大规模训练数据的有效性。

🔬 方法详解

问题定义：论文旨在解决开放词汇3D场景理解问题，即在没有预定义类别的情况下，根据文本描述分割3D场景。现有方法受限于数据集规模小、标注质量不高，以及缺乏有效的3D视觉-语言对齐机制，导致泛化能力不足。

核心思路：论文的核心思路是构建一个大规模、高质量的3D掩码-文本对数据集，并在此基础上训练一个能够有效对齐3D视觉信息和文本描述的基础模型。通过数据驱动的方式，提升模型对开放词汇3D场景的理解和分割能力。

技术框架：Mosaic3D的整体框架包含两个主要部分：数据生成流程和模型训练框架。数据生成流程利用先进的开放词汇图像分割模型和区域感知的视觉-语言模型，自动生成3D掩码-文本对。模型训练框架包含一个3D编码器（用于提取3D场景特征）和一个轻量级的掩码解码器（用于生成分割掩码）。3D编码器通过对比学习进行预训练，以学习有效的3D场景表示。

关键创新：论文的关键创新在于自动数据生成流程，它能够高效地生成大规模、高质量的3D掩码-文本对。与手动标注相比，该流程大大降低了数据获取的成本，并能够覆盖更广泛的词汇。此外，Mosaic3D模型通过对比学习对齐3D视觉和文本信息，提升了模型的泛化能力。

关键设计：数据生成流程中，使用了区域感知的视觉-语言模型，以确保生成的文本描述与3D区域的内容一致。在模型训练中，使用了对比损失函数，鼓励模型学习相似的3D视觉和文本表示。3D编码器可以采用不同的网络结构，例如PointNet++或SparseConvNet。掩码解码器采用轻量级设计，以降低计算成本。

🖼️ 关键图片

📊 实验亮点

Mosaic3D模型在ScanNet200、Matterport3D和ScanNet++等数据集上取得了最先进的开放词汇3D语义和实例分割结果。例如，在ScanNet200数据集上，Mosaic3D模型在开放词汇语义分割任务上取得了显著的性能提升，超过了现有方法。消融研究表明，大规模训练数据对模型性能至关重要。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。例如，机器人可以利用开放词汇3D分割技术理解周围环境，并根据自然语言指令执行任务。在自动驾驶领域，该技术可以帮助车辆识别道路上的各种物体，提高驾驶安全性。在VR/AR领域，该技术可以实现更逼真的场景交互。

📄 摘要（原文）

We tackle open-vocabulary 3D scene understanding by introducing a novel data generation pipeline and training framework. Our method addresses three critical requirements for effective training: precise 3D region segmentation, comprehensive textual descriptions, and sufficient dataset scale. By leveraging state-of-the-art open-vocabulary image segmentation models and region-aware Vision-Language Models, we develop an automatic pipeline that generates high-quality 3D mask-text pairs. Applying this pipeline to multiple 3D scene datasets, we create Mosaic3D-5.6M, a dataset of over 30K annotated scenes with 5.6M mask-text pairs, significantly larger than existing datasets. Building upon this data, we propose Mosaic3D, a foundation model combining a 3D encoder trained with contrastive learning and a lightweight mask decoder for open-vocabulary 3D semantic and instance segmentation. Our approach achieves state-of-the-art results on open-vocabulary 3D semantic and instance segmentation tasks including ScanNet200, Matterport3D, and ScanNet++, with ablation studies validating the effectiveness of our large-scale training data.

Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理