GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection
作者: Xingyu Peng, Si Liu, Chen Gao, Yan Bai, Beipeng Mu, Xiaofei Wang, Huaxia Xia
分类: cs.CV
发布日期: 2025-03-26
备注: 15 pages
💡 一句话要点
GLRD:基于全局-局部协同推理与辩论的PSL框架,用于3D开放词汇检测
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D开放词汇检测 全局-局部协同推理 LLM 概率软逻辑 场景理解 点云处理 常识推理
📋 核心要点
- 现有3D开放词汇检测方法侧重于对象级别特征,忽略了场景上下文信息,导致相似物体类别区分困难。
- GLRD框架利用LLM进行全局场景和局部对象信息的常识推理,并结合概率软逻辑求解器和辩论机制优化检测结果。
- 实验结果表明,GLRD在ScanNet和SUN RGB-D数据集上,显著提升了3D开放词汇检测的平均精度均值。
📝 摘要(中文)
本文提出了一种名为GLRD的全局-局部协同推理与辩论框架,用于解决基于LiDAR的3D开放词汇检测(3D OVD)任务。该任务要求检测器在没有现成训练标签的情况下,学习检测点云中的新物体。现有方法侧重于学习对象级别的表示,忽略了场景级别的信息,因此难以区分相似类别的物体。GLRD框架同时考虑局部对象级别信息和全局场景级别信息。具体而言,利用LLM执行基于对象级别和场景级别信息的常识推理,并相应地优化检测结果。为了进一步提高LLM的精确决策能力,还设计了一个概率软逻辑求解器(OV-PSL)来搜索最优解,以及一个辩论方案来确认易混淆物体的类别。此外,为了缓解类别分布不均的问题,设计了静态平衡方案(SBC)和动态平衡方案(DBC)。为了减少数据和训练中噪声的影响,进一步提出了反射伪标签生成(RPLG)和背景感知对象定位(BAOL)。在ScanNet和SUN RGB-D上进行的大量实验表明了GLRD的优越性,在部分开放词汇设置下,SUN RGB-D上的平均精度均值绝对提高了+2.82%,ScanNet上的平均精度均值绝对提高了+3.72%。在完全开放词汇设置下,ScanNet上的平均精度均值绝对提高了+4.03%,SUN RGB-D上的平均精度均值绝对提高了+14.11%。
🔬 方法详解
问题定义:3D开放词汇检测旨在检测未在训练集中出现过的物体类别。现有方法主要关注物体级别的特征学习,忽略了场景级别的上下文信息,导致模型难以区分外观相似但语义不同的物体,例如,在厨房场景中区分“苹果”和“梨”。
核心思路:GLRD的核心思路是同时利用全局场景信息和局部物体信息进行协同推理,并引入LLM进行常识推理,从而提高模型对新物体的识别能力。通过概率软逻辑求解器(OV-PSL)和辩论机制,进一步提升LLM决策的准确性。
技术框架:GLRD框架主要包含以下几个模块:1) 特征提取模块:从点云数据中提取局部物体特征和全局场景特征。2) LLM推理模块:利用LLM对局部物体特征和全局场景特征进行常识推理,生成候选物体类别。3) OV-PSL求解器:使用概率软逻辑求解器对LLM的推理结果进行优化,得到更准确的物体类别。4) 辩论模块:针对易混淆的物体类别,设计辩论机制,进一步确认物体类别。5) 平衡方案:采用静态平衡方案(SBC)和动态平衡方案(DBC)缓解类别不平衡问题。6) 数据增强模块:通过反射伪标签生成(RPLG)和背景感知对象定位(BAOL)减少噪声数据的影响。
关键创新:GLRD的关键创新在于:1) 引入LLM进行全局-局部协同推理,充分利用了场景上下文信息。2) 设计了OV-PSL求解器和辩论机制,提高了LLM决策的准确性。3) 提出了RPLG和BAOL数据增强方法,减少了噪声数据的影响。与现有方法相比,GLRD更有效地利用了场景信息,并提高了模型对新物体的泛化能力。
关键设计:1) LLM推理模块:使用预训练的LLM,输入局部物体特征和全局场景特征,输出候选物体类别及其置信度。2) OV-PSL求解器:将LLM的推理结果转化为概率逻辑规则,利用PSL求解器搜索最优解。3) 辩论模块:针对置信度相近的物体类别,设计辩论规则,例如,询问LLM“该物体是否通常出现在厨房场景中?”,根据LLM的回答更新物体类别的置信度。4) SBC和DBC:SBC对训练数据进行重采样,DBC动态调整损失函数的权重,以平衡不同类别的样本数量。
🖼️ 关键图片
📊 实验亮点
GLRD在SUN RGB-D和ScanNet数据集上取得了显著的性能提升。在部分开放词汇设置下,SUN RGB-D上的mAP提升了2.82%,ScanNet上的mAP提升了3.72%。在完全开放词汇设置下,ScanNet上的mAP提升了4.03%,SUN RGB-D上的mAP提升了高达14.11%,表明了GLRD在3D开放词汇检测任务中的优越性。
🎯 应用场景
GLRD框架可应用于自动驾驶、机器人导航、智能家居等领域。例如,在自动驾驶中,可以利用GLRD检测道路上的新物体,提高驾驶安全性。在机器人导航中,可以帮助机器人识别未知的环境物体,实现更智能的导航。在智能家居中,可以识别用户放置的新物品,提供更个性化的服务。
📄 摘要(原文)
The task of LiDAR-based 3D Open-Vocabulary Detection (3D OVD) requires the detector to learn to detect novel objects from point clouds without off-the-shelf training labels. Previous methods focus on the learning of object-level representations and ignore the scene-level information, thus it is hard to distinguish objects with similar classes. In this work, we propose a Global-Local Collaborative Reason and Debate with PSL (GLRD) framework for the 3D OVD task, considering both local object-level information and global scene-level information. Specifically, LLM is utilized to perform common sense reasoning based on object-level and scene-level information, where the detection result is refined accordingly. To further boost the LLM's ability of precise decisions, we also design a probabilistic soft logic solver (OV-PSL) to search for the optimal solution, and a debate scheme to confirm the class of confusable objects. In addition, to alleviate the uneven distribution of classes, a static balance scheme (SBC) and a dynamic balance scheme (DBC) are designed. In addition, to reduce the influence of noise in data and training, we further propose Reflected Pseudo Labels Generation (RPLG) and Background-Aware Object Localization (BAOL). Extensive experiments conducted on ScanNet and SUN RGB-D demonstrate the superiority of GLRD, where absolute improvements in mean average precision are $+2.82\%$ on SUN RGB-D and $+3.72\%$ on ScanNet in the partial open-vocabulary setting. In the full open-vocabulary setting, the absolute improvements in mean average precision are $+4.03\%$ on ScanNet and $+14.11\%$ on SUN RGB-D.