Grounded 3D-Aware Spatial Vision-Language Modeling
作者: An-Chieh Cheng, Yang Fu, Yatai Ji, Ligeng Zhu, Guanqi Zhan, Zhuoyang Zhang, Zhaojing Yang, Song Han, Yao Lu, Pavlo Molchanov, Vidya Nariyambut Murali, Jan Kautz, Xiaolong Wang, Hongxu Yin, Sifei Liu
分类: cs.CV
发布日期: 2026-05-28
备注: CVPR 2026 https://www.anjiecheng.me/gr3d
💡 一句话要点
提出GR3D:一种具有显式和隐式2D以及单目3D grounding能力的空间视觉语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 空间视觉语言模型 3D grounding 单目3D感知 视觉语言推理 机器人导航
📋 核心要点
- 现有视觉语言模型在复杂空间推理任务中表现不足,缺乏有效的视觉 grounding 机制。
- GR3D通过显式和隐式2D grounding以及单目3D grounding,增强模型对空间关系的理解和推理能力。
- 实验表明,GR3D在多个空间基准测试中取得了显著提升,验证了 grounding 作为归纳偏置的有效性。
📝 摘要(中文)
本文提出GR3D,一种空间视觉语言模型,它在单一框架内具备三种互补的grounding能力:显式2D grounding、隐式2D grounding和单目3D grounding。GR3D引入了一种隐式grounding机制,该机制在生成过程中识别实体提及,并将相应的区域tokens插入到文本流中,从而允许模型在生成空间思维链响应时动态地参考视觉证据。同时,一个区域提示的单目3D grounding设计从grounded区域查询中预测相机视图中的3D bounding boxes,并由内在感知归一化和密集几何监督提供支持。这些grounding能力共同使GR3D能够将复杂的空间理解问题分解为grounded 2D感知,然后进行3D推理。GR3D在grounded和非grounded空间基准测试中都取得了持续的改进,证明grounding是增强VLM中空间理解的有效归纳偏置。这些grounding能力共同增强了一般的空间理解,超越了grounding任务本身。
🔬 方法详解
问题定义:现有视觉语言模型在处理需要深入空间理解的任务时,往往难以将语言描述与视觉场景中的具体对象和空间关系有效关联。这导致模型在空间推理、定位和导航等任务中表现不佳。现有方法要么依赖于显式的2D grounding,要么缺乏对3D空间信息的有效利用,限制了模型对复杂空间场景的理解能力。
核心思路:GR3D的核心思路是通过引入三种互补的grounding机制,即显式2D grounding、隐式2D grounding和单目3D grounding,来增强模型对空间关系的理解和推理能力。隐式2D grounding允许模型在生成文本时动态地参考视觉证据,单目3D grounding则使模型能够从2D区域预测3D bounding boxes,从而实现从2D感知到3D推理的转化。
技术框架:GR3D的整体框架包含以下几个主要模块:1) 文本编码器:用于将输入的文本描述转换为向量表示。2) 图像编码器:用于提取图像的视觉特征。3) 隐式2D grounding模块:在文本生成过程中,识别实体提及并将对应的区域tokens插入文本流。4) 单目3D grounding模块:从grounded区域查询中预测相机视图中的3D bounding boxes。5) 空间推理模块:利用grounded的视觉和语言信息进行空间推理,生成最终的输出。
关键创新:GR3D的关键创新在于其集成了三种互补的grounding机制,特别是隐式2D grounding和单目3D grounding。隐式2D grounding允许模型在生成文本时动态地参考视觉证据,这与传统的显式grounding方法不同,后者通常需要在预处理阶段就确定grounding区域。单目3D grounding则使模型能够从2D区域预测3D bounding boxes,从而实现从2D感知到3D推理的转化,这对于理解复杂空间场景至关重要。
关键设计:在单目3D grounding模块中,采用了内在感知归一化(intrinsic-aware normalization)来提高3D bounding box预测的准确性。此外,还使用了密集几何监督(dense geometric supervision)来训练模型,使其能够更好地理解场景的几何结构。损失函数包括2D grounding损失、3D bounding box预测损失和语言生成损失,这些损失函数共同优化模型,使其能够更好地进行空间理解和推理。
🖼️ 关键图片
📊 实验亮点
GR3D在多个空间基准测试中取得了显著的改进。例如,在Spatial IQ测试中,GR3D的性能优于现有的最先进模型。在grounded空间推理任务中,GR3D也取得了显著的提升,证明了其grounding机制的有效性。实验结果表明,GR3D能够更好地理解和推理空间关系,从而在各种空间任务中取得更好的性能。
🎯 应用场景
GR3D具有广泛的应用前景,包括机器人导航、自动驾驶、增强现实和虚拟现实等领域。它可以帮助机器人更好地理解周围环境,从而实现更智能的导航和交互。在自动驾驶领域,GR3D可以用于感知车辆周围的物体和空间关系,提高驾驶安全性。在AR/VR领域,GR3D可以用于创建更逼真的虚拟环境,并实现更自然的交互。
📄 摘要(原文)
We present GR3D, a spatial vision language model equipped with three complementary grounding capabilities--explicit 2D grounding, implicit 2D grounding, and monocular 3D grounding--within a single framework. GR3D introduces an implicit grounding mechanism that identifies entity mentions during generation and inserts the corresponding region tokens into the text stream, allowing the model to reference visual evidence on the fly when producing spatial chain-of-thought responses. In parallel, a region-prompted monocular 3D grounding design predicts 3D bounding boxes in the camera view from grounded region queries, supported by intrinsic-aware normalization and dense geometric supervision. Together, these grounding capabilities enable GR3D to decompose complex spatial understanding problems into grounded 2D perception followed by 3D inference. GR3D achieves consistent improvements across grounded and non-grounded spatial benchmarks, demonstrating grounding as an effective inductive bias for strengthening spatial understanding in VLMs. These grounding capabilities collectively enhance general spatial understanding beyond the grounding task itself.