PanoGrounder: Bridging 2D and 3D with Panoramic Scene Representations for VLM-based 3D Visual Grounding

作者: Seongmin Jung, Seongho Choi, Gunwoo Jeon, Minsu Cho, Jongwoo Lim

分类: cs.CV

发布日期: 2025-12-24

💡 一句话要点

PanoGrounder：利用全景场景表示桥接2D和3D，实现基于VLM的3D视觉定位

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D视觉定位 视觉语言模型 全景场景表示 跨模态学习 机器人感知

📋 核心要点

现有3D视觉定位方法依赖大量3D视觉-语言数据，泛化能力有限，且推理能力弱于先进的VLM。
PanoGrounder利用全景渲染作为2D和3D的桥梁，结合预训练VLM，提升视觉-语言推理能力和泛化性。
实验表明，PanoGrounder在ScanRefer和Nr3D数据集上达到SOTA，并在未见数据集和文本释义上表现出更强的泛化能力。

📝 摘要（中文）

3D视觉定位(3DVG)是视觉-语言感知到机器人的关键桥梁，需要语言理解和3D场景推理。传统的监督模型利用显式的3D几何信息，但由于3D视觉-语言数据集的稀缺以及与现代视觉-语言模型(VLM)相比有限的推理能力，其泛化能力受到限制。我们提出了PanoGrounder，一个通用的3DVG框架，它将多模态全景表示与预训练的2D VLM相结合，以实现强大的视觉-语言推理。全景渲染，辅以3D语义和几何特征，作为2D和3D之间的中间表示，并提供两个主要好处：(i)它们可以直接输入到VLM中，只需进行最小的调整；(ii)由于其360度的视野，它们保留了长程对象间的关系。我们设计了一个三阶段流程，该流程考虑场景布局和几何结构，放置一组紧凑的全景视点，使用VLM在每个全景渲染上定位文本查询，并通过提升将每个视点的预测融合为单个3D边界框。我们的方法在ScanRefer和Nr3D上取得了最先进的结果，并展示了对未见过的3D数据集和文本释义的卓越泛化能力。

🔬 方法详解

问题定义：3D视觉定位旨在根据给定的文本描述，在3D场景中定位目标物体。现有方法通常依赖于直接在3D点云或网格上进行推理，但由于缺乏大规模的3D视觉-语言数据集，以及3D推理本身的复杂性，导致模型泛化能力受限。此外，现有方法的3D推理能力与先进的2D视觉-语言模型（VLM）相比存在差距。

核心思路：PanoGrounder的核心思路是将3D场景转换为一系列全景图像，利用预训练的2D VLM强大的视觉-语言推理能力，然后在全景图像上进行目标定位，最后将2D定位结果提升回3D空间。通过这种方式，可以有效地利用现有的2D VLM，并避免直接在3D空间中进行复杂的推理。全景图像能够捕捉360度的场景信息，有利于建立长程对象间的关系。

技术框架：PanoGrounder包含三个主要阶段：1) 全景视点选择：根据场景布局和几何信息，选择一组紧凑的全景视点。2) 基于VLM的全景定位：对于每个全景视点，使用VLM在全景图像上定位文本查询所描述的目标。3) 3D边界框融合：将每个视点的预测结果融合为一个3D边界框。

关键创新：PanoGrounder的关键创新在于使用全景渲染作为2D和3D之间的桥梁，并利用预训练的2D VLM进行视觉-语言推理。这种方法避免了直接在3D空间中进行复杂的推理，并能够有效地利用现有的2D VLM。此外，全景图像的使用能够捕捉360度的场景信息，有利于建立长程对象间的关系。

关键设计：全景视点选择策略旨在选择一组能够覆盖整个场景，并且能够提供足够信息的视点。VLM的选择和微调是关键，需要选择具有强大视觉-语言推理能力的VLM，并根据具体任务进行微调。3D边界框融合策略需要考虑不同视点的预测结果的置信度，以及它们之间的几何关系。

🖼️ 关键图片

📊 实验亮点

PanoGrounder在ScanRefer和Nr3D数据集上取得了state-of-the-art的结果，证明了其有效性。更重要的是，PanoGrounder在未见过的3D数据集和文本释义上表现出更强的泛化能力，表明其具有良好的鲁棒性和适应性。这些结果表明，PanoGrounder是一种通用的3DVG框架，可以应用于各种不同的场景。

🎯 应用场景

PanoGrounder在机器人导航、增强现实、虚拟现实等领域具有广泛的应用前景。例如，在机器人导航中，机器人可以根据用户的语音指令，利用PanoGrounder在3D环境中定位目标物体，并规划路径到达目标位置。在增强现实和虚拟现实中，PanoGrounder可以用于在3D场景中定位虚拟物体，并与真实场景进行融合。

📄 摘要（原文）

3D Visual Grounding (3DVG) is a critical bridge from vision-language perception to robotics, requiring both language understanding and 3D scene reasoning. Traditional supervised models leverage explicit 3D geometry but exhibit limited generalization, owing to the scarcity of 3D vision-language datasets and the limited reasoning capabilities compared to modern vision-language models (VLMs). We propose PanoGrounder, a generalizable 3DVG framework that couples multi-modal panoramic representation with pretrained 2D VLMs for strong vision-language reasoning. Panoramic renderings, augmented with 3D semantic and geometric features, serve as an intermediate representation between 2D and 3D, and offer two major benefits: (i) they can be directly fed to VLMs with minimal adaptation and (ii) they retain long-range object-to-object relations thanks to their 360-degree field of view. We devise a three-stage pipeline that places a compact set of panoramic viewpoints considering the scene layout and geometry, grounds a text query on each panoramic rendering with a VLM, and fuses per-view predictions into a single 3D bounding box via lifting. Our approach achieves state-of-the-art results on ScanRefer and Nr3D, and demonstrates superior generalization to unseen 3D datasets and text rephrasings.

PanoGrounder: Bridging 2D and 3D with Panoramic Scene Representations for VLM-based 3D Visual Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理