Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models

📄 arXiv: 2407.13642v1 📥 PDF

作者: Xiaoyu Zhu, Hao Zhou, Pengfei Xing, Long Zhao, Hao Xu, Junwei Liang, Alexander Hauptmann, Ting Liu, Andrew Gallagher

分类: cs.CV

发布日期: 2024-07-18

备注: ECCV 2024


💡 一句话要点

提出Diff2Scene,利用文本-图像扩散模型实现开放词汇3D语义分割。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D语义分割 开放词汇 扩散模型 零样本学习 文本-图像模型

📋 核心要点

  1. 现有3D语义分割方法依赖大量标注数据,泛化能力有限,难以识别未见过的物体。
  2. Diff2Scene利用预训练的文本-图像扩散模型,结合显著性与几何信息,实现零样本3D语义理解。
  3. 实验表明,Diff2Scene在ScanNet200数据集上超越现有最佳方法12%,显著提升了性能。

📝 摘要(中文)

本文研究了使用在大规模图像-文本对上预训练的扩散模型进行开放词汇3D语义理解。我们提出了一种名为Diff2Scene的新方法,该方法利用来自文本-图像生成模型的冻结表示,以及显著性感知和几何感知掩码,用于开放词汇3D语义分割和视觉定位任务。Diff2Scene摆脱了任何标记的3D数据,并有效地识别3D场景中的对象、外观、材料、位置及其组成。实验表明,Diff2Scene优于竞争基线,并在最先进的方法上取得了显著的改进。特别是在ScanNet200数据集上,Diff2Scene将现有最佳方法提升了12%。

🔬 方法详解

问题定义:论文旨在解决开放词汇3D语义分割问题,即在没有3D标注数据的情况下,识别和分割3D场景中任意文本描述的物体。现有方法通常依赖于大量标注的3D数据进行训练,泛化能力差,无法识别训练集中未出现的物体类别。

核心思路:Diff2Scene的核心思路是利用预训练的文本-图像扩散模型,将文本描述映射到图像特征空间,然后将这些特征迁移到3D场景中。通过结合显著性感知和几何感知掩码,可以更准确地将图像特征与3D场景中的对应区域对齐。

技术框架:Diff2Scene的整体框架包括以下几个主要模块:1) 文本编码器:将文本描述转换为文本特征向量。2) 图像解码器:利用文本特征向量生成对应的图像特征图。3) 3D特征提取器:从3D场景中提取几何特征。4) 特征对齐模块:利用显著性感知和几何感知掩码,将图像特征与3D几何特征对齐。5) 分割模块:根据对齐后的特征进行3D语义分割。

关键创新:Diff2Scene的关键创新在于利用了预训练的文本-图像扩散模型,实现了零样本的3D语义分割。与现有方法相比,Diff2Scene不需要任何3D标注数据,并且可以识别任意文本描述的物体,具有更强的泛化能力。此外,显著性感知和几何感知掩码的设计也提高了特征对齐的准确性。

关键设计:Diff2Scene使用了预训练的Stable Diffusion模型作为文本-图像生成模型。显著性感知掩码通过计算图像特征图的梯度得到,几何感知掩码则利用3D场景的法向量和深度信息生成。损失函数包括分割损失和对齐损失,用于优化分割模块和特征对齐模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Diff2Scene在ScanNet200数据集上取得了显著的性能提升,超越了现有最佳方法12%。实验结果表明,Diff2Scene在零样本3D语义分割任务中具有很强的竞争力,并且能够有效地识别各种物体和材料。

🎯 应用场景

Diff2Scene在机器人导航、自动驾驶、虚拟现实等领域具有广泛的应用前景。它可以帮助机器人理解周围环境,识别各种物体,从而实现更智能的交互和导航。在自动驾驶领域,Diff2Scene可以用于识别道路上的各种交通标志和障碍物,提高驾驶安全性。在虚拟现实领域,Diff2Scene可以用于创建更逼真的3D场景,并实现更自然的交互。

📄 摘要(原文)

In this paper, we investigate the use of diffusion models which are pre-trained on large-scale image-caption pairs for open-vocabulary 3D semantic understanding. We propose a novel method, namely Diff2Scene, which leverages frozen representations from text-image generative models, along with salient-aware and geometric-aware masks, for open-vocabulary 3D semantic segmentation and visual grounding tasks. Diff2Scene gets rid of any labeled 3D data and effectively identifies objects, appearances, materials, locations and their compositions in 3D scenes. We show that it outperforms competitive baselines and achieves significant improvements over state-of-the-art methods. In particular, Diff2Scene improves the state-of-the-art method on ScanNet200 by 12%.