ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning
作者: Zhenyang Liu, Yikai Wang, Sixiao Zheng, Tongying Pan, Longfei Liang, Yanwei Fu, Xiangyang Xue
分类: cs.CV
发布日期: 2025-03-30
💡 一句话要点
ReasonGrounder:基于LVLM引导的分层特征Splatting用于开放词汇3D视觉定位与推理
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D视觉定位 开放词汇 视觉语言模型 高斯Splatting 遮挡处理
📋 核心要点
- 现有3D视觉定位方法依赖于3D标注和掩码提议的微调,限制了其处理多样语义和常识知识的能力。
- ReasonGrounder利用LVLM理解指令,并结合分层3D特征高斯场和多视角信息,实现对遮挡物体的精确定位。
- ReasonGrounder在ReasoningGD数据集上进行了评估,实验结果表明其显著提高了真实场景中的3D定位精度。
📝 摘要(中文)
本文提出ReasonGrounder,一个由大型视觉语言模型(LVLM)引导的框架,它使用分层3D特征高斯场进行基于物理尺度的自适应分组,从而实现开放词汇的3D定位和推理。ReasonGrounder通过LVLM解释隐式指令,并通过3D高斯splatting定位被遮挡的物体。通过整合来自SAM的2D分割掩码和多视角CLIP嵌入,ReasonGrounder基于物体尺度选择高斯组,从而通过显式和隐式语言理解实现精确定位,即使在新的、被遮挡的视角下也能实现。此外,本文还贡献了一个名为ReasoningGD的新数据集,包含超过1万个场景和200万个标注,用于评估遮挡下的开放词汇3D定位和非模态感知。实验表明,ReasonGrounder显著提高了真实场景中的3D定位精度。
🔬 方法详解
问题定义:现有开放词汇3D视觉定位方法难以处理复杂场景中的遮挡问题,并且对3D标注数据的依赖性较高,泛化能力不足。这些方法无法有效利用常识知识和隐式语言信息进行推理,导致定位精度下降。
核心思路:ReasonGrounder的核心思路是利用大型视觉语言模型(LVLM)的强大语义理解能力,结合3D高斯splatting技术,实现对场景中物体的精确定位和推理。通过分层特征表示和多视角信息融合,该方法能够有效处理遮挡问题,并利用常识知识进行推理。
技术框架:ReasonGrounder框架主要包含以下几个阶段:1) 使用LVLM解析输入的语言指令,提取关键语义信息。2) 利用SAM生成2D分割掩码,并提取多视角CLIP嵌入。3) 构建分层3D特征高斯场,根据物理尺度对高斯组进行自适应分组。4) 基于LVLM的语义理解和多视角信息,选择相关的高斯组,实现对目标物体的定位。
关键创新:ReasonGrounder的关键创新在于:1) 提出了一种基于LVLM引导的分层特征Splatting方法,能够有效利用常识知识和隐式语言信息进行推理。2) 结合2D分割掩码和多视角CLIP嵌入,提高了定位精度和鲁棒性。3) 构建了ReasoningGD数据集,为开放词汇3D定位和推理提供了新的评估基准。
关键设计:ReasonGrounder的关键设计包括:1) 使用预训练的LVLM(如GPT-4)进行语义解析,获取丰富的语义信息。2) 利用SAM生成高质量的2D分割掩码,为3D定位提供精确的几何信息。3) 设计了一种分层高斯场表示,能够根据物理尺度对物体进行自适应分组。4) 采用多视角CLIP嵌入,融合不同视角的视觉信息,提高定位的鲁棒性。
🖼️ 关键图片
📊 实验亮点
ReasonGrounder在ReasoningGD数据集上取得了显著的性能提升。实验结果表明,ReasonGrounder在3D定位精度方面优于现有方法,尤其是在处理遮挡物体时,性能提升更为明显。具体数据未知,但摘要强调了“显著提高”。
🎯 应用场景
ReasonGrounder在视觉语言导航、自动驾驶、机器人操作等领域具有广泛的应用前景。它可以帮助机器人理解人类指令,并在复杂环境中定位和操作物体。此外,该技术还可以应用于虚拟现实和增强现实等领域,提升用户交互体验。
📄 摘要(原文)
Open-vocabulary 3D visual grounding and reasoning aim to localize objects in a scene based on implicit language descriptions, even when they are occluded. This ability is crucial for tasks such as vision-language navigation and autonomous robotics. However, current methods struggle because they rely heavily on fine-tuning with 3D annotations and mask proposals, which limits their ability to handle diverse semantics and common knowledge required for effective reasoning. In this work, we propose ReasonGrounder, an LVLM-guided framework that uses hierarchical 3D feature Gaussian fields for adaptive grouping based on physical scale, enabling open-vocabulary 3D grounding and reasoning. ReasonGrounder interprets implicit instructions using large vision-language models (LVLM) and localizes occluded objects through 3D Gaussian splatting. By incorporating 2D segmentation masks from the SAM and multi-view CLIP embeddings, ReasonGrounder selects Gaussian groups based on object scale, enabling accurate localization through both explicit and implicit language understanding, even in novel, occluded views. We also contribute ReasoningGD, a new dataset containing over 10K scenes and 2 million annotations for evaluating open-vocabulary 3D grounding and amodal perception under occlusion. Experiments show that ReasonGrounder significantly improves 3D grounding accuracy in real-world scenarios.