Zero-Shot Visual Grounding in 3D Gaussians via View Retrieval

作者: Liwei Liao, Xufeng Li, Xiaoyun Zheng, Boning Liu, Feng Gao, Ronggang Wang

分类: cs.CV, cs.MM

发布日期: 2025-09-19

🔗 代码/项目: GITHUB

💡 一句话要点

提出GVR，通过视图检索实现3D高斯场景的零样本视觉定位

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D视觉定位 零样本学习 3D高斯溅射 视图检索 机器人

📋 核心要点

现有3D视觉定位方法难以处理3D高斯溅射的隐式表达，且需要大量标注数据和逐场景训练。
GVR通过视图检索将3D视觉定位转化为2D检索问题，利用多视角信息实现零样本定位。
实验表明，GVR在无需逐场景训练的情况下，实现了最先进的视觉定位性能。

📝 摘要（中文）

本文提出了一种名为GVR（Grounding via View Retrieval）的零样本3D视觉定位框架，用于在3D高斯溅射（3DGS）场景中根据文本提示定位物体。现有3DVG方法难以处理3DGS中空间纹理的隐式表示，需要逐场景训练，并且依赖大量标注数据。GVR将3DVG转化为2D检索任务，利用物体级别的视图检索从多个视图中收集定位线索，避免了昂贵的3D标注过程和逐场景训练的需求。大量实验表明，该方法在避免逐场景训练的同时，实现了最先进的视觉定位性能，为零样本3DVG研究奠定了坚实的基础。

🔬 方法详解

问题定义：现有的3D视觉定位(3DVG)方法在处理3D高斯溅射(3DGS)场景时面临挑战。3DGS使用隐式表示来建模空间纹理，使得传统的3DVG方法难以直接应用。此外，现有方法通常需要大量的标注数据进行训练，并且需要针对每个场景进行单独的训练，这限制了其泛化能力和应用范围。

核心思路：GVR的核心思路是将3D视觉定位问题转化为一个2D视图检索问题。通过从多个视角检索与文本提示相关的视图，GVR可以利用2D图像上的视觉信息来推断3D场景中的物体位置。这种方法避免了直接处理3DGS的隐式表示，并且可以利用现有的2D视觉模型和数据集。

技术框架：GVR的整体框架包括以下几个主要模块：1) 视图生成模块：从3DGS场景中渲染多个视角的图像。2) 视图检索模块：根据文本提示，从生成的视图中检索最相关的视图。该模块通常使用预训练的文本-图像匹配模型，例如CLIP。3) 3D定位模块：根据检索到的视图，推断3D场景中物体的位置。这可以通过将2D图像上的物体位置反投影到3D空间来实现。

关键创新：GVR的关键创新在于将3D视觉定位问题转化为2D视图检索问题，从而避免了直接处理3DGS的隐式表示和3D标注数据的需求。这种方法使得零样本3D视觉定位成为可能，并且可以利用现有的2D视觉模型和数据集。

关键设计：GVR的关键设计包括：1) 使用预训练的CLIP模型进行视图检索，以实现文本-图像匹配。2) 使用多个视角的图像来提高定位的准确性。3) 使用反投影技术将2D图像上的物体位置映射到3D空间。具体的参数设置和损失函数取决于所使用的2D视觉模型和反投影方法，论文中可能没有详细说明，属于实现细节。

📊 实验亮点

GVR在3D视觉定位任务上取得了最先进的性能，同时避免了逐场景训练的需求。由于论文摘要中没有提供具体的性能数据和对比基线，具体的提升幅度未知。但该方法为零样本3D视觉定位提供了一个有效的解决方案，具有重要的研究意义。

🎯 应用场景

GVR在机器人技术、增强现实和虚拟现实等领域具有广泛的应用前景。例如，机器人可以利用GVR来理解人类的指令，并在3D环境中定位和操作物体。在AR/VR应用中，GVR可以用于根据用户的文本输入，在虚拟场景中定位和突出显示特定的物体，从而增强用户体验。该研究为零样本3D场景理解和人机交互提供了新的思路。

📄 摘要（原文）

3D Visual Grounding (3DVG) aims to locate objects in 3D scenes based on text prompts, which is essential for applications such as robotics. However, existing 3DVG methods encounter two main challenges: first, they struggle to handle the implicit representation of spatial textures in 3D Gaussian Splatting (3DGS), making per-scene training indispensable; second, they typically require larges amounts of labeled data for effective training. To this end, we propose \underline{G}rounding via \underline{V}iew \underline{R}etrieval (GVR), a novel zero-shot visual grounding framework for 3DGS to transform 3DVG as a 2D retrieval task that leverages object-level view retrieval to collect grounding clues from multiple views, which not only avoids the costly process of 3D annotation, but also eliminates the need for per-scene training. Extensive experiments demonstrate that our method achieves state-of-the-art visual grounding performance while avoiding per-scene training, providing a solid foundation for zero-shot 3DVG research. Video demos can be found in https://github.com/leviome/GVR_demos.

Zero-Shot Visual Grounding in 3D Gaussians via View Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册