ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning

作者: Zhenyang Liu, Yikai Wang, Sixiao Zheng, Tongying Pan, Longfei Liang, Yanwei Fu, Xiangyang Xue

分类: cs.CV

发布日期: 2025-03-30

💡 一句话要点

ReasonGrounder：基于LVLM引导的分层特征Splatting用于开放词汇3D视觉定位与推理

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D视觉定位 开放词汇 视觉语言模型 高斯Splatting 遮挡处理

📋 核心要点

现有3D视觉定位方法依赖于3D标注和掩码提议的微调，限制了其处理多样语义和常识知识的能力。
ReasonGrounder利用LVLM理解指令，并结合分层3D特征高斯场和多视角信息，实现对遮挡物体的精确定位。
ReasonGrounder在ReasoningGD数据集上进行了评估，实验结果表明其显著提高了真实场景中的3D定位精度。

📝 摘要（中文）

本文提出ReasonGrounder，一个由大型视觉语言模型（LVLM）引导的框架，它使用分层3D特征高斯场进行基于物理尺度的自适应分组，从而实现开放词汇的3D定位和推理。ReasonGrounder通过LVLM解释隐式指令，并通过3D高斯splatting定位被遮挡的物体。通过整合来自SAM的2D分割掩码和多视角CLIP嵌入，ReasonGrounder基于物体尺度选择高斯组，从而通过显式和隐式语言理解实现精确定位，即使在新的、被遮挡的视角下也能实现。此外，本文还贡献了一个名为ReasoningGD的新数据集，包含超过1万个场景和200万个标注，用于评估遮挡下的开放词汇3D定位和非模态感知。实验表明，ReasonGrounder显著提高了真实场景中的3D定位精度。

🔬 方法详解

问题定义：现有开放词汇3D视觉定位方法难以处理复杂场景中的遮挡问题，并且对3D标注数据的依赖性较高，泛化能力不足。这些方法无法有效利用常识知识和隐式语言信息进行推理，导致定位精度下降。

核心思路：ReasonGrounder的核心思路是利用大型视觉语言模型（LVLM）的强大语义理解能力，结合3D高斯splatting技术，实现对场景中物体的精确定位和推理。通过分层特征表示和多视角信息融合，该方法能够有效处理遮挡问题，并利用常识知识进行推理。

技术框架：ReasonGrounder框架主要包含以下几个阶段：1) 使用LVLM解析输入的语言指令，提取关键语义信息。2) 利用SAM生成2D分割掩码，并提取多视角CLIP嵌入。3) 构建分层3D特征高斯场，根据物理尺度对高斯组进行自适应分组。4) 基于LVLM的语义理解和多视角信息，选择相关的高斯组，实现对目标物体的定位。

关键创新：ReasonGrounder的关键创新在于：1) 提出了一种基于LVLM引导的分层特征Splatting方法，能够有效利用常识知识和隐式语言信息进行推理。2) 结合2D分割掩码和多视角CLIP嵌入，提高了定位精度和鲁棒性。3) 构建了ReasoningGD数据集，为开放词汇3D定位和推理提供了新的评估基准。

关键设计：ReasonGrounder的关键设计包括：1) 使用预训练的LVLM（如GPT-4）进行语义解析，获取丰富的语义信息。2) 利用SAM生成高质量的2D分割掩码，为3D定位提供精确的几何信息。3) 设计了一种分层高斯场表示，能够根据物理尺度对物体进行自适应分组。4) 采用多视角CLIP嵌入，融合不同视角的视觉信息，提高定位的鲁棒性。

🖼️ 关键图片

📊 实验亮点

ReasonGrounder在ReasoningGD数据集上取得了显著的性能提升。实验结果表明，ReasonGrounder在3D定位精度方面优于现有方法，尤其是在处理遮挡物体时，性能提升更为明显。具体数据未知，但摘要强调了“显著提高”。

🎯 应用场景

ReasonGrounder在视觉语言导航、自动驾驶、机器人操作等领域具有广泛的应用前景。它可以帮助机器人理解人类指令，并在复杂环境中定位和操作物体。此外，该技术还可以应用于虚拟现实和增强现实等领域，提升用户交互体验。

📄 摘要（原文）

Open-vocabulary 3D visual grounding and reasoning aim to localize objects in a scene based on implicit language descriptions, even when they are occluded. This ability is crucial for tasks such as vision-language navigation and autonomous robotics. However, current methods struggle because they rely heavily on fine-tuning with 3D annotations and mask proposals, which limits their ability to handle diverse semantics and common knowledge required for effective reasoning. In this work, we propose ReasonGrounder, an LVLM-guided framework that uses hierarchical 3D feature Gaussian fields for adaptive grouping based on physical scale, enabling open-vocabulary 3D grounding and reasoning. ReasonGrounder interprets implicit instructions using large vision-language models (LVLM) and localizes occluded objects through 3D Gaussian splatting. By incorporating 2D segmentation masks from the SAM and multi-view CLIP embeddings, ReasonGrounder selects Gaussian groups based on object scale, enabling accurate localization through both explicit and implicit language understanding, even in novel, occluded views. We also contribute ReasoningGD, a new dataset containing over 10K scenes and 2 million annotations for evaluating open-vocabulary 3D grounding and amodal perception under occlusion. Experiments show that ReasonGrounder significantly improves 3D grounding accuracy in real-world scenarios.

ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理