IndoorBEV: Joint Detection and Footprint Completion of Objects via Mask-based Prediction in Indoor Scenarios for Bird's-Eye View Perception

📄 arXiv: 2507.17445v1 📥 PDF

作者: Haichuan Li, Changda Tian, Panos Trahanias, Tomi Westerlund

分类: cs.RO, cs.AI

发布日期: 2025-07-23


💡 一句话要点

IndoorBEV:提出一种基于掩码预测的BEV室内场景物体检测与足迹补全方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 室内场景理解 鸟瞰图感知 物体检测 足迹补全 掩码预测 移动机器人 BEV感知

📋 核心要点

  1. 室内3D点云场景中,物体形状多样、环境杂乱,传统边界框检测方法难以有效区分静态和动态物体。
  2. IndoorBEV将3D场景投影到2D BEV视图,利用掩码预测物体类别和实例,从而有效捕获物体足迹。
  3. 在自定义室内数据集上的实验表明,IndoorBEV能够有效检测静态和动态物体,提升室内场景理解能力。

📝 摘要(中文)

本文提出了一种名为IndoorBEV的新型基于掩码的鸟瞰图(BEV)方法,专为室内移动机器人设计,旨在解决复杂室内3D点云中多样化物体的检测难题。传统边界框方法在处理室内场景中不同形状的物体、杂乱环境以及静态和动态元素共存时表现不佳。IndoorBEV将3D场景投影到2D BEV网格中,自然地处理遮挡,并提供一致的自顶向下视图,有助于区分静态障碍物和动态代理。获得的2D BEV结果可直接用于导航、运动预测和规划等下游机器人任务。该架构利用轴向紧凑编码器和基于窗口的主干网络从BEV地图中提取丰富的空间特征。然后,基于查询的解码器头部采用学习到的对象查询,并发地预测BEV空间中的对象类别和实例掩码。这种以掩码为中心的公式有效地捕获静态和动态物体的足迹,提供了一种鲁棒的边界框回归替代方案。在自定义的室内数据集上,IndoorBEV展示了其有效性,该数据集包含各种对象类别,包括静态对象和动态元素(如机器人和杂项物品),展示了其在鲁棒室内场景理解方面的潜力。

🔬 方法详解

问题定义:论文旨在解决室内复杂场景下,机器人对环境中各种物体的精确感知问题。现有方法,特别是基于3D bounding box的检测方法,在室内场景中面临诸多挑战,例如物体形状不规则、遮挡严重、静态物体与动态物体混杂等,导致检测精度和鲁棒性下降。

核心思路:论文的核心思路是将3D室内场景投影到2D鸟瞰图(BEV)空间,并在BEV空间中进行基于掩码的物体检测。通过预测物体的实例掩码,可以更准确地捕捉物体的形状和足迹,从而克服传统bounding box方法的局限性。这种方法能够更好地处理遮挡,并区分静态和动态物体。

技术框架:IndoorBEV的整体架构包含以下几个主要模块:1) 轴向紧凑编码器:用于从原始点云数据中提取特征。2) 基于窗口的主干网络:用于在BEV地图上提取丰富的空间特征。3) 基于查询的解码器头部:使用学习到的对象查询,并发地预测BEV空间中的对象类别和实例掩码。整个流程是将3D点云转换为BEV表示,然后利用深度学习模型进行物体检测和足迹补全。

关键创新:IndoorBEV的关键创新在于其mask-based的BEV物体检测方法。与传统的bounding box回归方法不同,IndoorBEV直接预测物体的实例掩码,从而能够更准确地捕捉物体的形状和足迹。这种方法对于处理形状不规则的物体和存在遮挡的场景更加鲁棒。此外,该方法能够同时检测静态和动态物体,为机器人导航和规划提供更全面的场景信息。

关键设计:论文中提到使用了轴向紧凑编码器和基于窗口的主干网络,但没有详细说明其具体结构和参数设置。解码器头部采用了基于查询的方法,这是一种常见的物体检测方法,但论文没有具体说明查询的数量、损失函数的设计等关键细节。这些细节的缺失使得复现该方法存在一定的难度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在自定义的室内数据集上验证了IndoorBEV的有效性,该数据集包含各种静态和动态物体。虽然论文没有提供具体的性能指标和对比基线,但强调了IndoorBEV能够有效检测不同形状的物体,并区分静态和动态元素,展示了其在鲁棒室内场景理解方面的潜力。未来的工作可以进一步量化IndoorBEV的性能提升,并与其他先进的室内物体检测方法进行比较。

🎯 应用场景

IndoorBEV技术可广泛应用于室内移动机器人领域,例如家庭服务机器人、仓储物流机器人、安防巡检机器人等。该技术能够帮助机器人在复杂室内环境中更准确地感知周围物体,从而实现更安全、更高效的导航、避障和任务执行。未来,该技术有望与SLAM、路径规划等模块相结合,构建更智能的室内机器人系统。

📄 摘要(原文)

Detecting diverse objects within complex indoor 3D point clouds presents significant challenges for robotic perception, particularly with varied object shapes, clutter, and the co-existence of static and dynamic elements where traditional bounding box methods falter. To address these limitations, we propose IndoorBEV, a novel mask-based Bird's-Eye View (BEV) method for indoor mobile robots. In a BEV method, a 3D scene is projected into a 2D BEV grid which handles naturally occlusions and provides a consistent top-down view aiding to distinguish static obstacles from dynamic agents. The obtained 2D BEV results is directly usable to downstream robotic tasks like navigation, motion prediction, and planning. Our architecture utilizes an axis compact encoder and a window-based backbone to extract rich spatial features from this BEV map. A query-based decoder head then employs learned object queries to concurrently predict object classes and instance masks in the BEV space. This mask-centric formulation effectively captures the footprint of both static and dynamic objects regardless of their shape, offering a robust alternative to bounding box regression. We demonstrate the effectiveness of IndoorBEV on a custom indoor dataset featuring diverse object classes including static objects and dynamic elements like robots and miscellaneous items, showcasing its potential for robust indoor scene understanding.