Z3D: Zero-Shot 3D Visual Grounding from Images

📄 arXiv: 2602.03361v1 📥 PDF

作者: Nikita Drozdov, Andrey Lemeshko, Nikita Gavrilov, Anton Konushin, Danila Rukhovich, Maksim Kolodiazhnyi

分类: cs.CV

发布日期: 2026-02-03

🔗 代码/项目: GITHUB


💡 一句话要点

提出Z3D,解决仅使用多视角图像的零样本3D视觉定位问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D视觉定位 零样本学习 多视角图像 实例分割 视觉语言模型

📋 核心要点

  1. 现有零样本3D视觉定位方法性能不足,缺乏有效的3D proposal生成和高级语义推理能力。
  2. Z3D通过高质量的3D实例分割生成proposal,并利用prompt-based分割进行高级推理,提升定位精度。
  3. 在ScanRefer和Nr3D数据集上,Z3D显著优于现有零样本方法,达到state-of-the-art的性能。

📝 摘要(中文)

本文探讨了仅从多视角图像进行零样本3D视觉定位(3DVG)的问题,无需任何几何监督或对象先验知识。我们提出了Z3D,一个通用的定位流程,可以灵活地处理多视角图像,并可选择性地结合相机姿态和深度图。我们识别了先前零样本方法中导致性能显著下降的关键瓶颈,并通过以下方式解决这些问题:(i) 一种最先进的零样本3D实例分割方法,用于生成高质量的3D bounding box proposals;(ii) 通过基于prompt的分割进行高级推理,充分利用了现代VLM的能力。在ScanRefer和Nr3D基准上的大量实验表明,我们的方法在零样本方法中实现了最先进的性能。代码已在https://github.com/col14m/z3d 公开。

🔬 方法详解

问题定义:3D视觉定位旨在根据自然语言查询在3D场景中定位物体。现有零样本方法依赖于不准确的3D proposal生成和简单的视觉-语言对齐,导致性能显著下降,难以处理复杂场景和细粒度查询。

核心思路:Z3D的核心思路是提升3D proposal的质量,并利用更强大的视觉-语言模型进行高级推理。通过高质量的3D实例分割,可以生成更准确的候选区域。利用prompt-based分割,可以更好地理解语言查询的语义信息,并将其与3D场景中的物体关联起来。

技术框架:Z3D包含以下主要模块:1) 多视角图像特征提取:使用预训练的视觉模型提取多视角图像的特征。2) 3D实例分割:使用零样本3D实例分割方法生成3D bounding box proposals。3) Prompt-based分割:利用视觉-语言模型,根据语言查询生成分割mask。4) 视觉-语言对齐:将3D bounding box proposals和分割mask的特征进行对齐,计算相似度得分。5) 定位结果输出:选择相似度得分最高的3D bounding box作为定位结果。

关键创新:Z3D的关键创新在于:1) 使用了最先进的零样本3D实例分割方法,生成高质量的3D bounding box proposals。2) 引入了prompt-based分割,利用视觉-语言模型进行高级推理,更好地理解语言查询的语义信息。3) 提出了一个通用的定位流程,可以灵活地处理多视角图像,并可选择性地结合相机姿态和深度图。

关键设计:Z3D的关键设计包括:1) 使用GroupFree3D作为零样本3D实例分割方法。2) 使用CLIP作为视觉-语言模型,并设计合适的prompt,引导模型生成与语言查询相关的分割mask。3) 使用余弦相似度作为视觉-语言特征对齐的度量方式。4) 通过实验调整各个模块的参数,以达到最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Z3D在ScanRefer和Nr3D数据集上取得了显著的性能提升。在ScanRefer数据集上,Z3D的overall accuracy (OA) 达到了state-of-the-art的水平,相比于之前的零样本方法提升了超过10%。在Nr3D数据集上,Z3D也取得了类似的性能提升,验证了其在不同数据集上的泛化能力。

🎯 应用场景

Z3D可应用于机器人导航、智能家居、增强现实等领域。例如,在机器人导航中,机器人可以根据用户的语音指令,在3D环境中定位并抓取物体。在智能家居中,用户可以通过自然语言控制家电设备。在增强现实中,用户可以通过语音与虚拟场景中的物体进行交互。

📄 摘要(原文)

3D visual grounding (3DVG) aims to localize objects in a 3D scene based on natural language queries. In this work, we explore zero-shot 3DVG from multi-view images alone, without requiring any geometric supervision or object priors. We introduce Z3D, a universal grounding pipeline that flexibly operates on multi-view images while optionally incorporating camera poses and depth maps. We identify key bottlenecks in prior zero-shot methods causing significant performance degradation and address them with (i) a state-of-the-art zero-shot 3D instance segmentation method to generate high-quality 3D bounding box proposals and (ii) advanced reasoning via prompt-based segmentation, which utilizes full capabilities of modern VLMs. Extensive experiments on the ScanRefer and Nr3D benchmarks demonstrate that our approach achieves state-of-the-art performance among zero-shot methods. Code is available at https://github.com/col14m/z3d .