Z3D: Zero-Shot 3D Visual Grounding from Images

作者: Nikita Drozdov, Andrey Lemeshko, Nikita Gavrilov, Anton Konushin, Danila Rukhovich, Maksim Kolodiazhnyi

分类: cs.CV

发布日期: 2026-02-03

🔗 代码/项目: GITHUB

💡 一句话要点

提出Z3D，解决仅使用多视角图像的零样本3D视觉定位问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D视觉定位 零样本学习 多视角图像 实例分割 视觉语言模型

📋 核心要点

现有零样本3D视觉定位方法性能不足，缺乏有效的3D proposal生成和高级语义推理能力。
Z3D通过高质量的3D实例分割生成proposal，并利用prompt-based分割进行高级推理，提升定位精度。
在ScanRefer和Nr3D数据集上，Z3D显著优于现有零样本方法，达到state-of-the-art的性能。

📝 摘要（中文）

本文探讨了仅从多视角图像进行零样本3D视觉定位(3DVG)的问题，无需任何几何监督或对象先验知识。我们提出了Z3D，一个通用的定位流程，可以灵活地处理多视角图像，并可选择性地结合相机姿态和深度图。我们识别了先前零样本方法中导致性能显著下降的关键瓶颈，并通过以下方式解决这些问题：(i) 一种最先进的零样本3D实例分割方法，用于生成高质量的3D bounding box proposals；(ii) 通过基于prompt的分割进行高级推理，充分利用了现代VLM的能力。在ScanRefer和Nr3D基准上的大量实验表明，我们的方法在零样本方法中实现了最先进的性能。代码已在https://github.com/col14m/z3d 公开。

🔬 方法详解

问题定义：3D视觉定位旨在根据自然语言查询在3D场景中定位物体。现有零样本方法依赖于不准确的3D proposal生成和简单的视觉-语言对齐，导致性能显著下降，难以处理复杂场景和细粒度查询。

核心思路：Z3D的核心思路是提升3D proposal的质量，并利用更强大的视觉-语言模型进行高级推理。通过高质量的3D实例分割，可以生成更准确的候选区域。利用prompt-based分割，可以更好地理解语言查询的语义信息，并将其与3D场景中的物体关联起来。

技术框架：Z3D包含以下主要模块：1) 多视角图像特征提取：使用预训练的视觉模型提取多视角图像的特征。2) 3D实例分割：使用零样本3D实例分割方法生成3D bounding box proposals。3) Prompt-based分割：利用视觉-语言模型，根据语言查询生成分割mask。4) 视觉-语言对齐：将3D bounding box proposals和分割mask的特征进行对齐，计算相似度得分。5) 定位结果输出：选择相似度得分最高的3D bounding box作为定位结果。

关键创新：Z3D的关键创新在于：1) 使用了最先进的零样本3D实例分割方法，生成高质量的3D bounding box proposals。2) 引入了prompt-based分割，利用视觉-语言模型进行高级推理，更好地理解语言查询的语义信息。3) 提出了一个通用的定位流程，可以灵活地处理多视角图像，并可选择性地结合相机姿态和深度图。

关键设计：Z3D的关键设计包括：1) 使用GroupFree3D作为零样本3D实例分割方法。2) 使用CLIP作为视觉-语言模型，并设计合适的prompt，引导模型生成与语言查询相关的分割mask。3) 使用余弦相似度作为视觉-语言特征对齐的度量方式。4) 通过实验调整各个模块的参数，以达到最佳性能。

🖼️ 关键图片

📊 实验亮点

Z3D在ScanRefer和Nr3D数据集上取得了显著的性能提升。在ScanRefer数据集上，Z3D的overall accuracy (OA) 达到了state-of-the-art的水平，相比于之前的零样本方法提升了超过10%。在Nr3D数据集上，Z3D也取得了类似的性能提升，验证了其在不同数据集上的泛化能力。

🎯 应用场景

Z3D可应用于机器人导航、智能家居、增强现实等领域。例如，在机器人导航中，机器人可以根据用户的语音指令，在3D环境中定位并抓取物体。在智能家居中，用户可以通过自然语言控制家电设备。在增强现实中，用户可以通过语音与虚拟场景中的物体进行交互。

📄 摘要（原文）

3D visual grounding (3DVG) aims to localize objects in a 3D scene based on natural language queries. In this work, we explore zero-shot 3DVG from multi-view images alone, without requiring any geometric supervision or object priors. We introduce Z3D, a universal grounding pipeline that flexibly operates on multi-view images while optionally incorporating camera poses and depth maps. We identify key bottlenecks in prior zero-shot methods causing significant performance degradation and address them with (i) a state-of-the-art zero-shot 3D instance segmentation method to generate high-quality 3D bounding box proposals and (ii) advanced reasoning via prompt-based segmentation, which utilizes full capabilities of modern VLMs. Extensive experiments on the ScanRefer and Nr3D benchmarks demonstrate that our approach achieves state-of-the-art performance among zero-shot methods. Code is available at https://github.com/col14m/z3d .

Z3D: Zero-Shot 3D Visual Grounding from Images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理