UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing
作者: Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu
分类: cs.RO, cs.CV
发布日期: 2026-03-09
备注: 14 pages,6 figures,3 tables
💡 一句话要点
UniGround:通过无训练场景解析实现通用3D视觉定位
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D视觉定位 无训练学习 场景理解 几何推理 多视图语义编码 开放世界 零样本学习
📋 核心要点
- 现有3D视觉定位方法依赖预训练模型,限制了对新空间关系和分布外场景的泛化能力。
- UniGround通过无训练的视觉和几何推理,实现开放世界3D视觉定位,无需依赖预训练知识。
- UniGround在ScanRefer和EmbodiedScan上取得了优异的零样本定位效果,并在真实环境中表现出良好的鲁棒性。
📝 摘要(中文)
3D视觉定位(3DVG)旨在根据自然语言描述理解和定位复杂3D环境中的对象,是具身智能中的一项基础挑战,对机器人、增强现实和人机交互具有广泛意义。大规模预训练模型推动了该领域的显著进展,实现了开放词汇3DVG,允许系统定位给定场景中的任意对象。然而,它们对预训练模型的依赖限制了3D感知和推理在继承知识范围内的泛化能力,导致对未见空间关系的泛化能力有限,以及对分布外场景的鲁棒性较差。本文提出UniGround,通过无训练的视觉和几何推理取代这种受限的感知,从而解锁开放世界的3DVG,实现在训练数据之外的任何场景中定位任何对象。UniGround分两个阶段运行:全局候选过滤阶段,通过无训练的3D拓扑和多视图语义编码构建场景候选;局部精确定位阶段,利用多尺度视觉提示和结构化推理来精确识别目标对象。在ScanRefer和EmbodiedScan上的实验表明,UniGround在ScanRefer上实现了46.1%/34.1%的Acc@0.25/0.5,在EmbodiedScan上实现了28.7%的Acc@0.25,在没有任何3D监督的情况下,在EmbodiedScan上建立了新的零样本方法的最先进水平。我们进一步在不受控制的重建条件和显著的领域转移下的真实环境中评估UniGround,表明无训练推理能够稳健地泛化到精心策划的基准之外。
🔬 方法详解
问题定义:现有3D视觉定位方法依赖于大规模预训练模型,这些模型虽然在一定程度上实现了开放词汇的定位,但其性能受到预训练数据和知识的限制。具体来说,这些方法难以泛化到训练集中未见过的空间关系和场景,并且在真实世界中,由于数据分布的差异,鲁棒性较差。因此,如何设计一种不依赖于预训练模型,能够处理开放世界场景的3D视觉定位方法是一个关键问题。
核心思路:UniGround的核心思路是利用无训练的视觉和几何推理来解决3D视觉定位问题。它避免了对预训练模型的依赖,而是直接利用场景的几何结构和多视图语义信息进行推理。通过这种方式,UniGround能够更好地泛化到未见过的场景和空间关系,并且对数据分布的变化具有更强的鲁棒性。
技术框架:UniGround包含两个主要阶段:全局候选过滤和局部精确定位。在全局候选过滤阶段,系统首先利用3D拓扑和多视图语义编码构建场景候选区域。然后,在局部精确定位阶段,系统利用多尺度视觉提示和结构化推理来精确识别目标对象。整个框架无需训练,可以直接应用于新的场景。
关键创新:UniGround最重要的技术创新点在于其无训练的视觉和几何推理方法。与现有方法依赖预训练模型不同,UniGround直接利用场景的几何结构和多视图语义信息进行推理,从而实现了更好的泛化能力和鲁棒性。这种无训练的方法使得UniGround能够处理开放世界场景,而无需依赖于特定的训练数据。
关键设计:在全局候选过滤阶段,UniGround利用3D拓扑结构来减少搜索空间,并使用多视图语义编码来提取场景的语义信息。在局部精确定位阶段,UniGround使用多尺度视觉提示来引导定位过程,并使用结构化推理来提高定位的准确性。具体的参数设置和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
UniGround在ScanRefer和EmbodiedScan数据集上取得了显著的成果。在ScanRefer数据集上,UniGround实现了46.1%的Acc@0.25和34.1%的Acc@0.5。更重要的是,在EmbodiedScan数据集上,UniGround在没有任何3D监督的情况下,实现了28.7%的Acc@0.25,建立了新的零样本方法的最先进水平。此外,UniGround在真实环境中也表现出良好的鲁棒性,证明了其在实际应用中的潜力。
🎯 应用场景
UniGround具有广泛的应用前景,包括机器人导航、增强现实、人机交互等领域。在机器人导航中,UniGround可以帮助机器人理解人类的指令,并在复杂的3D环境中定位目标对象。在增强现实中,UniGround可以实现更自然的交互体验,例如,用户可以通过语音指令在虚拟环境中放置或操作对象。在人机交互中,UniGround可以帮助机器更好地理解人类的意图,从而实现更智能的交互。
📄 摘要(原文)
Understanding and localizing objects in complex 3D environments from natural language descriptions, known as 3D Visual Grounding (3DVG), is a foundational challenge in embodied AI, with broad implications for robotics, augmented reality, and human-machine interaction. Large-scale pre-trained foundation models have driven significant progress on this front, enabling open-vocabulary 3DVG that allows systems to locate arbitrary objects in a given scene. However, their reliance on pre-trained models constrains 3D perception and reasoning within the inherited knowledge boundaries, resulting in limited generalization to unseen spatial relationships and poor robustness to out-of-distribution scenes. In this paper, we replace this constrained perception with training-free visual and geometric reasoning, thereby unlocking open-world 3DVG that enables the localization of any object in any scene beyond the training data. Specifically, the proposed UniGround operates in two stages: a Global Candidate Filtering stage that constructs scene candidates through training-free 3D topology and multi-view semantic encoding, and a Local Precision Grounding stage that leverages multi-scale visual prompting and structured reasoning to precisely identify the target object. Experiments on ScanRefer and EmbodiedScan show that UniGround achieves 46.1\%/34.1\% Acc@0.25/0.5 on ScanRefer and 28.7\% Acc@0.25 on EmbodiedScan, establishing a new state-of-the-art among zero-shot methods on EmbodiedScan without any 3D supervision. We further evaluate UniGround in real-world environments under uncontrolled reconstruction conditions and substantial domain shift, showing training-free reasoning generalizes robustly beyond curated benchmarks.