GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection

作者: Xingyu Peng, Si Liu, Chen Gao, Yan Bai, Beipeng Mu, Xiaofei Wang, Huaxia Xia

分类: cs.CV

发布日期: 2025-03-26

备注: 15 pages

💡 一句话要点

GLRD：基于全局-局部协同推理与辩论的PSL框架，用于3D开放词汇检测

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D开放词汇检测 全局-局部协同推理 LLM 概率软逻辑 场景理解 点云处理 常识推理

📋 核心要点

现有3D开放词汇检测方法侧重于对象级别特征，忽略了场景上下文信息，导致相似物体类别区分困难。
GLRD框架利用LLM进行全局场景和局部对象信息的常识推理，并结合概率软逻辑求解器和辩论机制优化检测结果。
实验结果表明，GLRD在ScanNet和SUN RGB-D数据集上，显著提升了3D开放词汇检测的平均精度均值。

📝 摘要（中文）

本文提出了一种名为GLRD的全局-局部协同推理与辩论框架，用于解决基于LiDAR的3D开放词汇检测(3D OVD)任务。该任务要求检测器在没有现成训练标签的情况下，学习检测点云中的新物体。现有方法侧重于学习对象级别的表示，忽略了场景级别的信息，因此难以区分相似类别的物体。GLRD框架同时考虑局部对象级别信息和全局场景级别信息。具体而言，利用LLM执行基于对象级别和场景级别信息的常识推理，并相应地优化检测结果。为了进一步提高LLM的精确决策能力，还设计了一个概率软逻辑求解器(OV-PSL)来搜索最优解，以及一个辩论方案来确认易混淆物体的类别。此外，为了缓解类别分布不均的问题，设计了静态平衡方案(SBC)和动态平衡方案(DBC)。为了减少数据和训练中噪声的影响，进一步提出了反射伪标签生成(RPLG)和背景感知对象定位(BAOL)。在ScanNet和SUN RGB-D上进行的大量实验表明了GLRD的优越性，在部分开放词汇设置下，SUN RGB-D上的平均精度均值绝对提高了+2.82%，ScanNet上的平均精度均值绝对提高了+3.72%。在完全开放词汇设置下，ScanNet上的平均精度均值绝对提高了+4.03%，SUN RGB-D上的平均精度均值绝对提高了+14.11%。

🔬 方法详解

问题定义：3D开放词汇检测旨在检测未在训练集中出现过的物体类别。现有方法主要关注物体级别的特征学习，忽略了场景级别的上下文信息，导致模型难以区分外观相似但语义不同的物体，例如，在厨房场景中区分“苹果”和“梨”。

核心思路：GLRD的核心思路是同时利用全局场景信息和局部物体信息进行协同推理，并引入LLM进行常识推理，从而提高模型对新物体的识别能力。通过概率软逻辑求解器(OV-PSL)和辩论机制，进一步提升LLM决策的准确性。

技术框架：GLRD框架主要包含以下几个模块：1) 特征提取模块：从点云数据中提取局部物体特征和全局场景特征。2) LLM推理模块：利用LLM对局部物体特征和全局场景特征进行常识推理，生成候选物体类别。3) OV-PSL求解器：使用概率软逻辑求解器对LLM的推理结果进行优化，得到更准确的物体类别。4) 辩论模块：针对易混淆的物体类别，设计辩论机制，进一步确认物体类别。5) 平衡方案：采用静态平衡方案(SBC)和动态平衡方案(DBC)缓解类别不平衡问题。6) 数据增强模块：通过反射伪标签生成(RPLG)和背景感知对象定位(BAOL)减少噪声数据的影响。

关键创新：GLRD的关键创新在于：1) 引入LLM进行全局-局部协同推理，充分利用了场景上下文信息。2) 设计了OV-PSL求解器和辩论机制，提高了LLM决策的准确性。3) 提出了RPLG和BAOL数据增强方法，减少了噪声数据的影响。与现有方法相比，GLRD更有效地利用了场景信息，并提高了模型对新物体的泛化能力。

关键设计：1) LLM推理模块：使用预训练的LLM，输入局部物体特征和全局场景特征，输出候选物体类别及其置信度。2) OV-PSL求解器：将LLM的推理结果转化为概率逻辑规则，利用PSL求解器搜索最优解。3) 辩论模块：针对置信度相近的物体类别，设计辩论规则，例如，询问LLM“该物体是否通常出现在厨房场景中？”，根据LLM的回答更新物体类别的置信度。4) SBC和DBC：SBC对训练数据进行重采样，DBC动态调整损失函数的权重，以平衡不同类别的样本数量。

🖼️ 关键图片

📊 实验亮点

GLRD在SUN RGB-D和ScanNet数据集上取得了显著的性能提升。在部分开放词汇设置下，SUN RGB-D上的mAP提升了2.82%，ScanNet上的mAP提升了3.72%。在完全开放词汇设置下，ScanNet上的mAP提升了4.03%，SUN RGB-D上的mAP提升了高达14.11%，表明了GLRD在3D开放词汇检测任务中的优越性。

🎯 应用场景

GLRD框架可应用于自动驾驶、机器人导航、智能家居等领域。例如，在自动驾驶中，可以利用GLRD检测道路上的新物体，提高驾驶安全性。在机器人导航中，可以帮助机器人识别未知的环境物体，实现更智能的导航。在智能家居中，可以识别用户放置的新物品，提供更个性化的服务。

📄 摘要（原文）

The task of LiDAR-based 3D Open-Vocabulary Detection (3D OVD) requires the detector to learn to detect novel objects from point clouds without off-the-shelf training labels. Previous methods focus on the learning of object-level representations and ignore the scene-level information, thus it is hard to distinguish objects with similar classes. In this work, we propose a Global-Local Collaborative Reason and Debate with PSL (GLRD) framework for the 3D OVD task, considering both local object-level information and global scene-level information. Specifically, LLM is utilized to perform common sense reasoning based on object-level and scene-level information, where the detection result is refined accordingly. To further boost the LLM's ability of precise decisions, we also design a probabilistic soft logic solver (OV-PSL) to search for the optimal solution, and a debate scheme to confirm the class of confusable objects. In addition, to alleviate the uneven distribution of classes, a static balance scheme (SBC) and a dynamic balance scheme (DBC) are designed. In addition, to reduce the influence of noise in data and training, we further propose Reflected Pseudo Labels Generation (RPLG) and Background-Aware Object Localization (BAOL). Extensive experiments conducted on ScanNet and SUN RGB-D demonstrate the superiority of GLRD, where absolute improvements in mean average precision are $+2.82\%$ on SUN RGB-D and $+3.72\%$ on ScanNet in the partial open-vocabulary setting. In the full open-vocabulary setting, the absolute improvements in mean average precision are $+4.03\%$ on ScanNet and $+14.11\%$ on SUN RGB-D.

GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理