OpenNav: Efficient Open Vocabulary 3D Object Detection for Smart Wheelchair Navigation

📄 arXiv: 2408.13936v1 📥 PDF

作者: Muhammad Rameez ur Rahman, Piero Simonetto, Anna Polato, Francesco Pasti, Luca Tonin, Sebastiano Vascon

分类: cs.CV

发布日期: 2024-08-25

备注: ECCVW

🔗 代码/项目: GITHUB


💡 一句话要点

OpenNav:面向智能轮椅导航的高效开放词汇3D目标检测

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇3D目标检测 智能轮椅导航 RGB-D图像 零样本学习 点云处理

📋 核心要点

  1. 辅助机器人需要精确且可扩展的目标识别能力,以适应多样化的环境,而开放词汇3D目标检测(OV3D)是关键。
  2. OpenNav通过结合开放词汇2D检测、语义分割、深度信息和点云构建,实现了零样本3D目标检测。
  3. 实验表明,OpenNav在Replica数据集上显著优于现有技术,并在真实轮椅上进行了初步验证。

📝 摘要(中文)

本文提出OpenNav,一个基于RGB-D图像的零样本3D目标检测流程,专为智能轮椅设计。该流程集成了开放词汇2D目标检测器和掩码生成器以进行语义分割,然后通过深度隔离和点云构建来创建3D边界框。智能轮椅利用这些3D边界框来识别潜在目标并安全导航。我们在Replica数据集上进行了实验,并报告了真实轮椅的初步结果。OpenNav在Replica数据集上显著提高了现有技术的水平,mAP25提升了9个百分点,mAP50提升了5个百分点,mAP略有提升。代码已公开。

🔬 方法详解

问题定义:现有3D目标检测方法通常依赖于预定义的类别,难以适应真实世界中不断出现的新物体。开放词汇3D目标检测旨在解决这一问题,即在没有特定类别训练数据的情况下,检测并识别3D场景中的物体。现有方法的痛点在于泛化能力不足,无法有效识别未见过的物体类别。

核心思路:OpenNav的核心思路是利用开放词汇2D目标检测器的强大语义理解能力,结合深度信息,将2D检测结果提升到3D空间。通过将2D检测结果与深度信息融合,生成3D边界框,从而实现对未知物体的3D检测。这种方法避免了对大量3D标注数据的依赖,提高了模型的泛化能力。

技术框架:OpenNav的整体流程包括以下几个主要模块:1) 开放词汇2D目标检测:使用预训练的开放词汇2D检测器(如CLIP)检测RGB图像中的物体,并生成2D边界框和相应的文本描述。2) 掩码生成:利用2D检测结果生成语义分割掩码,用于精确分割图像中的物体。3) 深度隔离和点云构建:利用RGB-D图像的深度信息,将2D掩码对应的像素点转换为3D点云。4) 3D边界框生成:根据点云数据,生成3D边界框,表示检测到的3D物体。

关键创新:OpenNav的关键创新在于将开放词汇2D目标检测与深度信息有效结合,实现了零样本3D目标检测。与传统的3D目标检测方法相比,OpenNav无需对特定类别的3D数据进行训练,即可检测并识别未见过的物体。这种方法极大地提高了模型的泛化能力和适应性。

关键设计:OpenNav的关键设计包括:1) 选择合适的开放词汇2D目标检测器,以保证检测的准确性和泛化能力。2) 设计有效的掩码生成方法,以精确分割图像中的物体。3) 利用深度信息构建高质量的点云,为3D边界框的生成提供准确的数据。4) 采用合适的3D边界框生成算法,以保证边界框的准确性和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OpenNav在Replica数据集上取得了显著的性能提升,mAP25提升了9个百分点,mAP50提升了5个百分点,mAP略有提升。这些结果表明,OpenNav在开放词汇3D目标检测方面具有很强的竞争力。此外,OpenNav还在真实轮椅上进行了初步验证,证明了其在实际应用中的可行性。

🎯 应用场景

OpenNav在智能轮椅导航、机器人辅助、自动驾驶等领域具有广泛的应用前景。它可以帮助智能轮椅识别周围环境中的各种物体,从而实现更安全、更智能的导航。在机器人辅助领域,OpenNav可以用于物体识别、场景理解等任务,提高机器人的自主性和适应性。在自动驾驶领域,OpenNav可以用于检测道路上的各种障碍物,提高驾驶安全性。

📄 摘要(原文)

Open vocabulary 3D object detection (OV3D) allows precise and extensible object recognition crucial for adapting to diverse environments encountered in assistive robotics. This paper presents OpenNav, a zero-shot 3D object detection pipeline based on RGB-D images for smart wheelchairs. Our pipeline integrates an open-vocabulary 2D object detector with a mask generator for semantic segmentation, followed by depth isolation and point cloud construction to create 3D bounding boxes. The smart wheelchair exploits these 3D bounding boxes to identify potential targets and navigate safely. We demonstrate OpenNav's performance through experiments on the Replica dataset and we report preliminary results with a real wheelchair. OpenNav improves state-of-the-art significantly on the Replica dataset at mAP25 (+9pts) and mAP50 (+5pts) with marginal improvement at mAP. The code is publicly available at this link: https://github.com/EasyWalk-PRIN/OpenNav.