Multiple Consistent 2D-3D Mappings for Robust Zero-Shot 3D Visual Grounding

📄 arXiv: 2604.26261v1 📥 PDF

作者: Yufei Yin, Jie Zheng, Qianke Meng, Zhou Yu, Minghao Chen, Jiajun Ding, Min Tan, Yuling Xi, Zhiwen Chen, Chengfei Lv

分类: cs.CV

发布日期: 2026-04-29


💡 一句话要点

MCM-VG:通过多重一致性2D-3D映射实现鲁棒的Zero-Shot 3D视觉定位

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Zero-Shot 3D视觉定位 2D-3D映射 多模态融合 具身智能 视觉语言模型

📋 核心要点

  1. 现有Zero-Shot 3D视觉定位方法受限于3D proposals的质量,存在类别错误、几何不精确和空间冗余等问题。
  2. MCM-VG通过建立多重一致性2D-3D映射,在语义对齐、实例校正和视点提炼三个维度上提升定位精度和推理可靠性。
  3. 实验表明,MCM-VG在ScanRefer和Nr3D数据集上显著超越现有方法,实现了zero-shot 3D视觉定位的新SOTA。

📝 摘要(中文)

Zero-shot 3D视觉定位(3DVG)是开放世界具身智能的关键能力。然而,现有方法受限于开放词汇3D proposals的质量,面临类别不准确、几何形状不精确以及多视角推理的空间冗余等问题。为了解决这些挑战,我们提出了MCM-VG,一种通过显式建立多重一致性2D-3D映射来实现鲁棒zero-shot 3DVG的新框架。MCM-VG在三个基本维度上强制执行2D-3D一致性,以实现精确定位和可靠推理,而非被动依赖于噪声3D分割。首先,语义对齐模块通过LLM驱动的查询解析和粗到细的2D-3D匹配来纠正类别不匹配。其次,实例校正模块利用VLM引导的2D分割来重建缺失目标,并将这些可靠的视觉先验反向投影以建立精确的3D几何形状。最后,为了消除空间冗余,视点提炼模块对3D相机方向进行聚类以提取最佳帧。通过将这些最佳RGB帧与鸟瞰图配对成简洁的视觉提示集,我们将最终目标消歧转化为视觉-语言模型的多项选择推理任务。在ScanRefer和Nr3D基准上的大量评估表明,MCM-VG为zero-shot 3D视觉定位设定了新的state-of-the-art。值得注意的是,它在ScanRefer上实现了62.0%的Acc@0.25和53.6%的Acc@0.5,分别超过了之前的基线6.4%和4.0%。

🔬 方法详解

问题定义:Zero-shot 3D视觉定位旨在根据自然语言描述在3D场景中定位目标物体。现有方法依赖于预先生成的3D proposals,但这些proposals通常质量不高,存在类别错误、几何形状不精确的问题,并且多视角推理存在空间冗余,限制了定位性能。

核心思路:MCM-VG的核心思路是通过建立多重一致性的2D-3D映射来提高定位的鲁棒性和准确性。它不直接依赖于有噪声的3D proposals,而是利用2D图像信息作为先验,通过语义对齐、实例校正和视点提炼三个模块,将2D信息反投影到3D空间,从而实现更精确的目标定位。

技术框架:MCM-VG的整体框架包含以下三个主要模块: 1. 语义对齐模块:利用LLM解析查询,并进行粗到细的2D-3D匹配,纠正类别不匹配问题。 2. 实例校正模块:利用VLM引导的2D分割来重建缺失的目标,并将这些可靠的视觉先验反向投影以建立精确的3D几何形状。 3. 视点提炼模块:通过聚类3D相机方向来提取最佳帧,消除空间冗余,并将最佳RGB帧与鸟瞰图配对成简洁的视觉提示集。 最终,将目标消歧转化为视觉-语言模型的多项选择推理任务。

关键创新:MCM-VG的关键创新在于其显式地建立了多重一致性的2D-3D映射。与以往方法被动依赖于3D proposals不同,MCM-VG主动利用2D图像信息来指导3D定位,从而提高了定位的准确性和鲁棒性。此外,视点提炼模块通过选择最佳视角,有效减少了空间冗余,提高了推理效率。

关键设计: * 语义对齐模块:使用LLM进行query解析,将query分解为更细粒度的语义信息,然后进行2D-3D的语义匹配。 * 实例校正模块:使用VLM生成高质量的2D分割mask,然后将mask反投影到3D空间,重建目标的3D几何形状。 * 视点提炼模块:使用聚类算法对相机视角进行聚类,选择最具代表性的视角,从而减少冗余信息。 * 损失函数:使用交叉熵损失函数来训练视觉-语言模型,使其能够准确地选择目标物体。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MCM-VG在ScanRefer和Nr3D数据集上取得了显著的性能提升。在ScanRefer数据集上,MCM-VG实现了62.0%的Acc@0.25和53.6%的Acc@0.5,分别超过了之前的基线6.4%和4.0%。这些结果表明,MCM-VG在zero-shot 3D视觉定位方面具有显著的优势。

🎯 应用场景

MCM-VG在开放世界具身智能领域具有广泛的应用前景,例如机器人导航、场景理解和人机交互。它可以帮助机器人在复杂环境中根据自然语言指令定位目标物体,从而实现更智能、更自主的行为。此外,该方法还可以应用于虚拟现实、增强现实等领域,提升用户体验。

📄 摘要(原文)

Zero-shot 3D Visual Grounding (3DVG) is a critical capability for open-world embodied AI. However, existing methods are fundamentally bottlenecked by the poor quality of open-vocabulary 3D proposals, suffering from inaccurate categories and imprecise geometries, as well as the spatial redundancy of exhaustive multi-view reasoning. To address these challenges, we propose MCM-VG, a novel framework that achieves robust zero-shot 3DVG by explicitly establishing Multiple Consistent 2D-3D Mappings. Instead of passively relying on noisy 3D segments, MCM-VG enforces 2D-3D consistency across three fundamental dimensions to achieve precise target localization and reliable reasoning. First, a Semantic Alignment module corrects category mismatches via LLM-driven query parsing and coarse-to-fine 2D-3D matching. Second, an Instance Rectification module leverages VLM-guided 2D segmentations to reconstruct missing targets, back-projecting these reliable visual priors to establish accurate 3D geometries. Finally, to eliminate spatial redundancy, a Viewpoint Distillation module clusters 3D camera directions to extract optimal frames. By pairing these optimal RGB frames with Bird's Eye View maps into concise visual prompt sets, we formulate the final target disambiguation as a multiple-choice reasoning task for Vision-Language Models. Extensive evaluations on ScanRefer and Nr3D benchmarks demonstrate that MCM-VG sets a new state-of-the-art for zero-shot 3D visual grounding. Remarkably, it achieves 62.0\% and 53.6\% in Acc@0.25 and Acc@0.5 on ScanRefer, outperforming previous baselines by substantial margins of 6.4\% and 4.0\%.