SeqVLM: Proposal-Guided Multi-View Sequences Reasoning via VLM for Zero-Shot 3D Visual Grounding

📄 arXiv: 2508.20758v1 📥 PDF

作者: Jiawen Lin, Shiran Bian, Yihang Zhu, Wenbin Tan, Yachao Zhang, Yuan Xie, Yanyun Qu

分类: cs.CV, cs.AI

发布日期: 2025-08-28

🔗 代码/项目: GITHUB


💡 一句话要点

SeqVLM通过多视角序列推理和VLM,实现零样本3D视觉定位

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D视觉定位 零样本学习 视觉语言模型 多视角学习 序列推理

📋 核心要点

  1. 现有零样本3D视觉定位方法依赖单视角定位,面临空间推理受限、上下文信息缺失或细节退化等问题。
  2. SeqVLM通过3D提议引导的多视角投影,将3D信息转换为图像序列,利用VLM进行跨模态推理,实现更准确的定位。
  3. 在ScanRefer和Nr3D数据集上,SeqVLM的Acc@0.25指标分别提升了4.0%和5.2%,显著优于现有零样本方法。

📝 摘要(中文)

本文提出SeqVLM,一个新颖的零样本3D视觉定位框架,利用多视角真实场景图像和空间信息进行目标对象推理。SeqVLM首先通过3D语义分割网络生成3D实例提议,并通过语义过滤进行优化,仅保留语义相关的候选对象。然后,采用提议引导的多视角投影策略,将这些候选提议投影到真实场景图像序列上,在3D点云到图像的转换过程中保留空间关系和上下文细节。此外,为了缓解VLM的计算过载,本文实现了一种动态调度机制,迭代处理序列-查询提示,利用VLM的跨模态推理能力来识别文本指定的对象。在ScanRefer和Nr3D基准测试上的实验表明,SeqVLM达到了最先进的性能,Acc@0.25得分分别为55.6%和53.2%,分别超过了之前的零样本方法4.0%和5.2%,从而推动了3DVG朝着更大的泛化性和实际应用性发展。

🔬 方法详解

问题定义:3D视觉定位(3DVG)旨在利用自然语言描述在3D场景中定位物体。现有的零样本3DVG方法主要依赖于单视角信息,导致空间推理能力受限,难以充分利用场景的上下文信息,并且在点云到图像的转换过程中容易造成细节损失。这些问题限制了零样本3DVG在实际场景中的应用。

核心思路:SeqVLM的核心思路是将3D场景中的候选物体提议投影到多视角的图像序列中,利用视觉语言模型(VLM)强大的跨模态推理能力,结合文本描述,从图像序列中定位目标物体。通过多视角信息融合,增强空间推理能力,并保留更多的上下文细节。动态调度机制则用于缓解VLM的计算压力。

技术框架:SeqVLM框架主要包含以下几个阶段:1) 3D提议生成与过滤:使用3D语义分割网络生成3D实例提议,并利用语义信息进行过滤,保留与文本描述相关的候选对象。2) 多视角投影:将候选提议投影到多视角的真实场景图像序列中,生成包含空间关系和上下文细节的图像序列。3) 动态调度与VLM推理:通过动态调度机制,迭代处理序列-查询提示,利用VLM的跨模态推理能力,从图像序列中识别文本指定的对象。

关键创新:SeqVLM的关键创新在于:1) 提出了一种提议引导的多视角投影策略,将3D信息转换为图像序列,充分利用多视角信息和上下文信息。2) 引入了动态调度机制,有效缓解了VLM处理长序列时的计算压力。3) 结合3D提议生成和VLM推理,实现了更准确的零样本3D视觉定位。

关键设计:在3D提议生成阶段,使用了现有的3D语义分割网络,并根据文本描述对提议进行语义过滤。多视角投影策略将3D提议投影到多个视角的图像上,形成图像序列。动态调度机制根据VLM的计算能力,动态调整序列长度和处理顺序。VLM部分使用了预训练的视觉语言模型,并通过微调来适应3D视觉定位任务。损失函数主要用于优化VLM的跨模态推理能力,例如使用对比学习损失来拉近文本描述和目标物体图像序列的特征表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SeqVLM在ScanRefer和Nr3D数据集上取得了显著的性能提升。在ScanRefer数据集上,Acc@0.25指标达到了55.6%,相比之前的零样本方法提升了4.0%。在Nr3D数据集上,Acc@0.25指标达到了53.2%,提升了5.2%。这些结果表明,SeqVLM能够更准确地定位3D场景中的物体,具有更强的泛化能力。

🎯 应用场景

SeqVLM在机器人导航、智能家居、增强现实等领域具有广泛的应用前景。例如,机器人可以根据用户的自然语言指令,在复杂的3D环境中定位并抓取物体。在智能家居中,用户可以通过语音控制,让系统识别并操作特定的设备。该研究的进展将推动3D视觉理解技术的发展,并促进人机交互的智能化。

📄 摘要(原文)

3D Visual Grounding (3DVG) aims to localize objects in 3D scenes using natural language descriptions. Although supervised methods achieve higher accuracy in constrained settings, zero-shot 3DVG holds greater promise for real-world applications since eliminating scene-specific training requirements. However, existing zero-shot methods face challenges of spatial-limited reasoning due to reliance on single-view localization, and contextual omissions or detail degradation. To address these issues, we propose SeqVLM, a novel zero-shot 3DVG framework that leverages multi-view real-world scene images with spatial information for target object reasoning. Specifically, SeqVLM first generates 3D instance proposals via a 3D semantic segmentation network and refines them through semantic filtering, retaining only semantic-relevant candidates. A proposal-guided multi-view projection strategy then projects these candidate proposals onto real scene image sequences, preserving spatial relationships and contextual details in the conversion process of 3D point cloud to images. Furthermore, to mitigate VLM computational overload, we implement a dynamic scheduling mechanism that iteratively processes sequances-query prompts, leveraging VLM's cross-modal reasoning capabilities to identify textually specified objects. Experiments on the ScanRefer and Nr3D benchmarks demonstrate state-of-the-art performance, achieving Acc@0.25 scores of 55.6% and 53.2%, surpassing previous zero-shot methods by 4.0% and 5.2%, respectively, which advance 3DVG toward greater generalization and real-world applicability. The code is available at https://github.com/JiawLin/SeqVLM.