Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection

作者: Youbin Kim, Jinho Park, Hogun Park, Eunbyung Park

分类: cs.CV

发布日期: 2026-03-23

备注: 24 pages, 7 figures, Project page: https://ubin108.github.io/Group3D/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Group3D：MLLM驱动的语义分组用于开放词汇3D目标检测

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放词汇3D检测 多模态大语言模型 语义分组 实例构建 几何一致性 语义兼容性 多视角学习

📋 核心要点

现有开放词汇3D检测方法在实例构建时缺乏语义约束，易导致几何驱动的错误合并，影响检测精度。
Group3D利用MLLM构建场景自适应词汇表，通过语义兼容组约束3D片段的合并，减少错误关联。
实验表明，Group3D在ScanNet和ARKitScenes数据集上取得了SOTA性能，并在零样本场景中表现出良好的泛化能力。

📝 摘要（中文）

本文提出Group3D，一个多视角开放词汇3D检测框架，它将语义约束直接集成到实例构建过程中。Group3D维护一个从多模态大语言模型(MLLM)导出的场景自适应词汇表，并将其组织成语义兼容组，以编码合理的跨视角类别等价性。这些组充当合并时的约束：只有当3D片段满足语义兼容性和几何一致性时，才会被关联。这种语义门控合并减轻了几何驱动的过度合并，同时吸收了多视角类别可变性。Group3D支持已知姿态和无姿态设置，仅依赖于RGB观测。在ScanNet和ARKitScenes上的实验表明，Group3D在多视角开放词汇3D检测中实现了最先进的性能，同时在零样本场景中表现出强大的泛化能力。

🔬 方法详解

问题定义：开放词汇3D目标检测旨在定位和识别超出固定训练类别范围的对象。现有方法通常将基于几何的实例构建与语义标注解耦，导致实例构建主要依赖几何一致性，缺乏语义约束。当几何证据是视角相关的且不完整时，这种纯几何合并可能导致不可逆的关联错误，例如过度合并不同的对象或分割单个实例。

核心思路：Group3D的核心思路是将语义信息融入到3D实例构建过程中，通过语义兼容性来约束片段的合并。具体来说，利用多模态大语言模型（MLLM）生成场景自适应的词汇表，并将其组织成语义兼容组，只有在几何和语义上都兼容的片段才会被合并。这样可以有效避免仅依赖几何信息导致的错误合并。

技术框架：Group3D框架主要包含以下几个阶段：1) 多视角RGB图像输入；2) 利用MLLM生成场景自适应词汇表；3) 将词汇表组织成语义兼容组；4) 基于几何一致性和语义兼容性进行3D片段合并；5) 最终输出开放词汇3D目标检测结果。该框架支持已知姿态和无姿态两种设置。

关键创新：Group3D的关键创新在于将语义信息融入到3D实例构建过程中，提出了语义门控合并机制。与现有方法相比，Group3D不再仅仅依赖几何信息进行片段合并，而是同时考虑几何一致性和语义兼容性，从而有效减少了错误合并。

关键设计：Group3D的关键设计包括：1) 如何利用MLLM生成场景自适应的词汇表；2) 如何定义和构建语义兼容组；3) 如何设计几何一致性和语义兼容性的融合策略。具体的技术细节，例如MLLM的选择、语义兼容性的度量方式、以及融合策略的权重设置等，需要在实际应用中进行调整和优化。

🖼️ 关键图片

📊 实验亮点

Group3D在ScanNet和ARKitScenes数据集上取得了SOTA性能。相较于现有方法，Group3D在多视角开放词汇3D检测任务上取得了显著的提升，尤其是在零样本场景中表现出强大的泛化能力。实验结果表明，语义约束的引入可以有效提高3D目标检测的精度和鲁棒性。

🎯 应用场景

Group3D在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以帮助机器人在复杂环境中识别和定位各种物体，从而实现更智能的交互和决策。此外，该方法还可以应用于3D场景理解、虚拟现实内容生成等领域，具有重要的实际价值和未来影响。

📄 摘要（原文）

Open-vocabulary 3D object detection aims to localize and recognize objects beyond a fixed training taxonomy. In multi-view RGB settings, recent approaches often decouple geometry-based instance construction from semantic labeling, generating class-agnostic fragments and assigning open-vocabulary categories post hoc. While flexible, such decoupling leaves instance construction governed primarily by geometric consistency, without semantic constraints during merging. When geometric evidence is view-dependent and incomplete, this geometry-only merging can lead to irreversible association errors, including over-merging of distinct objects or fragmentation of a single instance. We propose Group3D, a multi-view open-vocabulary 3D detection framework that integrates semantic constraints directly into the instance construction process. Group3D maintains a scene-adaptive vocabulary derived from a multimodal large language model (MLLM) and organizes it into semantic compatibility groups that encode plausible cross-view category equivalence. These groups act as merge-time constraints: 3D fragments are associated only when they satisfy both semantic compatibility and geometric consistency. This semantically gated merging mitigates geometry-driven over-merging while absorbing multi-view category variability. Group3D supports both pose-known and pose-free settings, relying only on RGB observations. Experiments on ScanNet and ARKitScenes demonstrate that Group3D achieves state-of-the-art performance in multi-view open-vocabulary 3D detection, while exhibiting strong generalization in zero-shot scenarios. The project page is available at https://ubin108.github.io/Group3D/.

Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理