Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection

作者: Xingyu Peng, Yan Bai, Chen Gao, Lirong Yang, Fei Xia, Beipeng Mu, Xiaofei Wang, Si Liu

分类: cs.CV

发布日期: 2024-07-12

备注: accepted by ECCV 2024

🔗 代码/项目: GITHUB

💡 一句话要点

提出GLIS框架，利用全局-局部协作推理和LLM提升LiDAR开放词汇检测性能。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LiDAR 开放词汇检测 全局-局部协作 大型语言模型 自监督学习 伪标签生成 3D目标检测

📋 核心要点

现有LiDAR开放词汇检测方法忽略了场景级别信息，限制了检测性能。
GLIS框架通过全局分支提取场景级特征，与局部对象特征融合，利用LLM进行推理。
RPLG生成高质量伪标签，BAOL选择精确对象提议，实验在ScanNetV2和SUN RGB-D上验证了有效性。

📝 摘要（中文）

开放词汇检测(OVD)旨在检测给定场景中所有感兴趣的对象，而无需预定义对象类别。虽然在2D RGB图像的OVD方面已经做了大量工作，但对3D OVD的探索仍然有限。直观地说，LiDAR点云提供了对象级别和场景级别的3D信息，从而产生可信的检测结果。然而，以往基于LiDAR的OVD方法只关注对象级别特征的使用，忽略了场景级别信息的本质。在本文中，我们提出了一种用于基于LiDAR的OVD任务的全局-局部协作方案(GLIS)，该方案包含一个用于生成对象级别检测结果的局部分支和一个用于获得场景级别全局特征的全局分支。利用全局-局部信息，应用大型语言模型(LLM)进行思维链推理，并相应地细化检测结果。我们进一步提出了反射伪标签生成(RPLG)来生成高质量的伪标签用于监督，以及背景感知对象定位(BAOL)来选择精确的对象提议。在ScanNetV2和SUN RGB-D上的大量实验证明了我们方法的优越性。

🔬 方法详解

问题定义：论文旨在解决基于LiDAR点云的开放词汇检测问题。现有方法主要依赖于对象级别的特征，忽略了场景级别的全局信息，导致检测精度受限，尤其是在复杂场景中。此外，如何有效地利用未标注数据进行自监督学习也是一个挑战。

核心思路：论文的核心思路是结合全局和局部信息，利用大型语言模型(LLM)进行推理，从而提升开放词汇检测的性能。通过全局分支提取场景级别的上下文信息，与局部对象特征融合，为LLM提供更全面的输入，从而实现更准确的检测。

技术框架：GLIS框架包含以下几个主要模块：1) 局部分支：用于提取对象级别的特征并生成初始检测结果。2) 全局分支：用于提取场景级别的全局特征。3) 全局-局部信息融合：将全局特征和局部特征进行融合，为LLM提供输入。4) LLM推理：利用LLM进行思维链推理，细化检测结果。5) 反射伪标签生成(RPLG)：生成高质量的伪标签用于自监督学习。6) 背景感知对象定位(BAOL)：选择精确的对象提议。

关键创新：论文的关键创新在于：1) 提出了全局-局部协作方案(GLIS)，有效结合了场景级别和对象级别的特征。2) 利用大型语言模型(LLM)进行思维链推理，提升了检测的准确性。3) 提出了反射伪标签生成(RPLG)和背景感知对象定位(BAOL)，用于生成高质量的伪标签和选择精确的对象提议。

关键设计：RPLG通过将预测结果反射回点云空间，并利用几何一致性进行过滤，从而生成高质量的伪标签。BAOL则通过考虑背景信息，选择与背景差异更大的对象提议，从而提高定位精度。LLM的具体选择和prompt设计对最终性能有重要影响，但论文中未明确说明具体细节（未知）。损失函数方面，可能采用了标准的检测损失函数（如交叉熵损失、IoU损失等）以及自监督学习相关的损失函数，但具体细节未明确说明（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GLIS框架在ScanNetV2和SUN RGB-D数据集上取得了显著的性能提升。具体提升幅度未知，但摘要中明确指出“证明了我们方法的优越性”。RPLG和BAOL的引入也进一步提升了检测精度，表明了自监督学习和精确对象提议选择的重要性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能安防等领域。通过提升LiDAR开放词汇检测的性能，可以使系统更好地理解周围环境，从而实现更安全、更智能的决策。未来，该方法有望扩展到更复杂的场景和更多模态的数据融合中。

📄 摘要（原文）

Open-Vocabulary Detection (OVD) is the task of detecting all interesting objects in a given scene without predefined object classes. Extensive work has been done to deal with the OVD for 2D RGB images, but the exploration of 3D OVD is still limited. Intuitively, lidar point clouds provide 3D information, both object level and scene level, to generate trustful detection results. However, previous lidar-based OVD methods only focus on the usage of object-level features, ignoring the essence of scene-level information. In this paper, we propose a Global-Local Collaborative Scheme (GLIS) for the lidar-based OVD task, which contains a local branch to generate object-level detection result and a global branch to obtain scene-level global feature. With the global-local information, a Large Language Model (LLM) is applied for chain-of-thought inference, and the detection result can be refined accordingly. We further propose Reflected Pseudo Labels Generation (RPLG) to generate high-quality pseudo labels for supervision and Background-Aware Object Localization (BAOL) to select precise object proposals. Extensive experiments on ScanNetV2 and SUN RGB-D demonstrate the superiority of our methods. Code is released at https://github.com/GradiusTwinbee/GLIS.

Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理