AgentGrounder: Zero-Shot 3D Visual Pointcloud Grounding using Multimodal Language Models

📄 arXiv: 2605.25901v1 📥 PDF

作者: Cuong Huynh, Maxim Popov, Denis Gridusov, Sergey Kolyubin

分类: cs.CV, cs.RO

发布日期: 2026-05-25

备注: Code: https://github.com/be2rlab/AgentGrounder

🔗 代码/项目: GITHUB


💡 一句话要点

AgentGrounder:利用多模态语言模型实现零样本3D点云视觉定位

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D视觉定位 零样本学习 多模态融合 点云处理 具身智能

📋 核心要点

  1. 现有零样本3D视觉定位方法依赖多视角图像,难以处理语义和空间细节不足的问题。
  2. AgentGrounder通过离线构建对象查找表,在线选择性检索和几何推理,实现高效定位。
  3. 实验表明,AgentGrounder在ScanRefer和Nr3D数据集上显著优于现有方法,尤其在视角无关查询上。

📝 摘要(中文)

3D视觉定位(3DVG)是具身智能的关键能力,它要求智能体根据自然语言描述在3D场景中定位物体。现有的零样本方法通常依赖于多视角图像,并且受限于标准3D分割工具提供的语义和空间细节。本文提出了AgentGrounder,一个零样本3D视觉定位框架,可以直接在彩色点云上操作,无需特定于任务的3D训练。该方法采用两阶段设计:(1)离线阶段,应用3D模型构建对象查找表(OLT),包含实例ID、语义标签和3D边界框;(2)在线工具驱动的智能体,分解每个查询,从OLT中检索相关候选对象,执行几何评分,并在需要额外视觉证据(例如,颜色、材质或视角敏感线索)时按需触发图像渲染。与固定的anchor-target匹配流程相比,这种设计减少了级联匹配错误,并通过避免提示中包含不相关的对象来提高上下文窗口效率。在ScanRefer和Nr3D数据集上的零样本设置下进行了评估,结果表明,与SeeGround相比,该方法在我们的设置中取得了持续的改进,包括在ScanRefer上+2.5%的Acc@0.5,在Nr3D上+6.3%,在Nr3D视角无关查询上显著提升了+6.3%。这些结果表明,结合选择性检索、几何推理和自适应视觉检查,为开放词汇3D定位提供了一个实用且稳健的基础。

🔬 方法详解

问题定义:论文旨在解决零样本3D视觉定位问题,即在没有特定3D训练数据的情况下,根据自然语言描述在3D点云场景中定位目标对象。现有方法,如依赖多视角图像的方法,在处理复杂场景和视角变化时表现不佳,并且容易受到3D分割工具的精度限制。此外,直接将所有对象信息输入语言模型会导致上下文窗口效率低下和匹配错误。

核心思路:AgentGrounder的核心思路是解耦离线对象信息准备和在线查询处理。通过离线构建包含对象ID、语义标签和3D边界框的对象查找表(OLT),实现在线阶段的快速检索。在线阶段,智能体根据查询选择性地从OLT中检索相关候选对象,并结合几何评分和按需图像渲染来提高定位精度。这种设计避免了将所有对象信息都输入语言模型,提高了效率和准确性。

技术框架:AgentGrounder框架包含两个主要阶段:离线阶段和在线阶段。离线阶段,使用3D模型处理点云数据,生成包含对象ID、语义标签和3D边界框的OLT。在线阶段,首先分解用户查询,然后从OLT中检索相关的候选对象。接下来,对候选对象进行几何评分,并根据需要触发图像渲染以获取额外的视觉证据。最后,结合几何评分和视觉证据,选择最符合查询描述的对象。

关键创新:AgentGrounder的关键创新在于其选择性检索和按需图像渲染机制。通过选择性检索,避免了将所有对象信息都输入语言模型,提高了上下文窗口效率。按需图像渲染允许智能体在需要时获取额外的视觉证据,例如颜色、材质和视角敏感线索,从而提高了定位精度。此外,该框架直接在点云上操作,无需特定于任务的3D训练。

关键设计:OLT的构建依赖于现有的3D分割和检测模型,例如Mask3D。几何评分基于候选对象与查询描述之间的空间关系,例如距离和方向。图像渲染使用预训练的2D视觉语言模型(LVLM)来评估渲染图像与查询描述的匹配程度。具体的损失函数和网络结构取决于所使用的LVLM,但通常包括对比损失和交叉熵损失。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

AgentGrounder在ScanRefer和Nr3D数据集上进行了评估,结果表明其性能优于现有方法SeeGround。在ScanRefer数据集上,AgentGrounder的Acc@0.5指标提升了2.5%。在Nr3D数据集上,整体性能提升了6.3%,在视角无关查询上更是提升了6.3%。这些结果证明了AgentGrounder在零样本3D视觉定位方面的有效性和鲁棒性。

🎯 应用场景

AgentGrounder具有广泛的应用前景,包括机器人导航、场景理解、虚拟现实和增强现实等领域。它可以帮助机器人在复杂环境中理解人类指令,并执行诸如“找到桌子上的红色杯子”之类的任务。此外,该技术还可以应用于3D场景的自动标注和内容生成,提高效率并降低成本。

📄 摘要(原文)

3D Visual Grounding (3DVG) is an essential capability for embodied AI, requiring agents to localize objects in 3D scenes based on natural language descriptions. Recent zero-shot methods leverage 2D vision-language models (LVLMs). However, they often rely on existing sets of multi-view images and struggle with the limited semantic and spatial details provided by standard 3D segmentation tools. We present $\textbf{AgentGrounder}$, a zero-shot 3D visual grounding framework that operates directly on colored point clouds without task-specific 3D training. Our approach follows a two-stage design: (1) an offline stage that applies 3D model to build an Object Lookup Table (OLT) with instance IDs, semantic labels, 3D bounding boxes; and (2) an online tool-driven agent that decomposes each query, retrieves only relevant candidates from the OLT, performs geometric scoring, and triggers image rendering on demand when additional visual evidence (e.g., color, material, or viewpoint-sensitive cues) is required. Compared with fixed anchor-target matching pipelines, this design reduces cascading matching errors and improves context-window efficiency by avoiding prompts overloaded with irrelevant objects. We evaluate on ScanRefer and Nr3D under a zero-shot setting and observe consistent improvements over SeeGround in our setup, including +2.5% Acc@0.5 on ScanRefer and +6.3% on Nr3D, with a notable +6.3% gain on Nr3D view-independent queries. These results show that combining selective retrieval, geometric reasoning, and adaptive visual inspection yields a practical and robust foundation for open-vocabulary 3D grounding. Our code is available at https://github.com/be2rlab/AgentGrounder.