Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection
作者: Youbin Kim, Jinho Park, Hogun Park, Eunbyung Park
分类: cs.CV
发布日期: 2026-03-23
备注: 24 pages, 7 figures, Project page: https://ubin108.github.io/Group3D/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Group3D:MLLM驱动的语义分组用于开放词汇3D目标检测
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇3D检测 多模态大语言模型 语义分组 实例构建 几何一致性 语义兼容性 多视角学习
📋 核心要点
- 现有开放词汇3D检测方法在实例构建时缺乏语义约束,易导致几何驱动的错误合并,影响检测精度。
- Group3D利用MLLM构建场景自适应词汇表,通过语义兼容组约束3D片段的合并,减少错误关联。
- 实验表明,Group3D在ScanNet和ARKitScenes数据集上取得了SOTA性能,并在零样本场景中表现出良好的泛化能力。
📝 摘要(中文)
本文提出Group3D,一个多视角开放词汇3D检测框架,它将语义约束直接集成到实例构建过程中。Group3D维护一个从多模态大语言模型(MLLM)导出的场景自适应词汇表,并将其组织成语义兼容组,以编码合理的跨视角类别等价性。这些组充当合并时的约束:只有当3D片段满足语义兼容性和几何一致性时,才会被关联。这种语义门控合并减轻了几何驱动的过度合并,同时吸收了多视角类别可变性。Group3D支持已知姿态和无姿态设置,仅依赖于RGB观测。在ScanNet和ARKitScenes上的实验表明,Group3D在多视角开放词汇3D检测中实现了最先进的性能,同时在零样本场景中表现出强大的泛化能力。
🔬 方法详解
问题定义:开放词汇3D目标检测旨在定位和识别超出固定训练类别范围的对象。现有方法通常将基于几何的实例构建与语义标注解耦,导致实例构建主要依赖几何一致性,缺乏语义约束。当几何证据是视角相关的且不完整时,这种纯几何合并可能导致不可逆的关联错误,例如过度合并不同的对象或分割单个实例。
核心思路:Group3D的核心思路是将语义信息融入到3D实例构建过程中,通过语义兼容性来约束片段的合并。具体来说,利用多模态大语言模型(MLLM)生成场景自适应的词汇表,并将其组织成语义兼容组,只有在几何和语义上都兼容的片段才会被合并。这样可以有效避免仅依赖几何信息导致的错误合并。
技术框架:Group3D框架主要包含以下几个阶段:1) 多视角RGB图像输入;2) 利用MLLM生成场景自适应词汇表;3) 将词汇表组织成语义兼容组;4) 基于几何一致性和语义兼容性进行3D片段合并;5) 最终输出开放词汇3D目标检测结果。该框架支持已知姿态和无姿态两种设置。
关键创新:Group3D的关键创新在于将语义信息融入到3D实例构建过程中,提出了语义门控合并机制。与现有方法相比,Group3D不再仅仅依赖几何信息进行片段合并,而是同时考虑几何一致性和语义兼容性,从而有效减少了错误合并。
关键设计:Group3D的关键设计包括:1) 如何利用MLLM生成场景自适应的词汇表;2) 如何定义和构建语义兼容组;3) 如何设计几何一致性和语义兼容性的融合策略。具体的技术细节,例如MLLM的选择、语义兼容性的度量方式、以及融合策略的权重设置等,需要在实际应用中进行调整和优化。
🖼️ 关键图片
📊 实验亮点
Group3D在ScanNet和ARKitScenes数据集上取得了SOTA性能。相较于现有方法,Group3D在多视角开放词汇3D检测任务上取得了显著的提升,尤其是在零样本场景中表现出强大的泛化能力。实验结果表明,语义约束的引入可以有效提高3D目标检测的精度和鲁棒性。
🎯 应用场景
Group3D在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以帮助机器人在复杂环境中识别和定位各种物体,从而实现更智能的交互和决策。此外,该方法还可以应用于3D场景理解、虚拟现实内容生成等领域,具有重要的实际价值和未来影响。
📄 摘要(原文)
Open-vocabulary 3D object detection aims to localize and recognize objects beyond a fixed training taxonomy. In multi-view RGB settings, recent approaches often decouple geometry-based instance construction from semantic labeling, generating class-agnostic fragments and assigning open-vocabulary categories post hoc. While flexible, such decoupling leaves instance construction governed primarily by geometric consistency, without semantic constraints during merging. When geometric evidence is view-dependent and incomplete, this geometry-only merging can lead to irreversible association errors, including over-merging of distinct objects or fragmentation of a single instance. We propose Group3D, a multi-view open-vocabulary 3D detection framework that integrates semantic constraints directly into the instance construction process. Group3D maintains a scene-adaptive vocabulary derived from a multimodal large language model (MLLM) and organizes it into semantic compatibility groups that encode plausible cross-view category equivalence. These groups act as merge-time constraints: 3D fragments are associated only when they satisfy both semantic compatibility and geometric consistency. This semantically gated merging mitigates geometry-driven over-merging while absorbing multi-view category variability. Group3D supports both pose-known and pose-free settings, relying only on RGB observations. Experiments on ScanNet and ARKitScenes demonstrate that Group3D achieves state-of-the-art performance in multi-view open-vocabulary 3D detection, while exhibiting strong generalization in zero-shot scenarios. The project page is available at https://ubin108.github.io/Group3D/.