Label-Efficient LiDAR Panoptic Segmentation
作者: Ahmet Selim Çanakçı, Niclas Vödisch, Kürsat Petek, Wolfram Burgard, Abhinav Valada
分类: cs.CV, cs.RO
发布日期: 2025-03-04 (更新: 2025-07-09)
备注: Accepted for the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2025
💡 一句话要点
提出L3PS,利用少量标注数据实现高效LiDAR全景分割
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: LiDAR全景分割 标签高效学习 伪标签 3D点云 机器人场景理解
📋 核心要点
- 现有LiDAR全景分割方法依赖大量标注数据,成本高昂且泛化性受限。
- L3PS利用少量标注图像生成伪标签,并设计3D细化模块提升点云分割质量。
- 实验表明,L3PS显著提升了分割精度,并大幅降低了对标注数据的需求。
📝 摘要(中文)
基于学习的机器人场景理解方法主要瓶颈在于对大量标注训练数据的依赖,这通常限制了其泛化能力。在LiDAR全景分割中,由于需要同时处理来自复杂高维点云数据的语义和实例分割,这一挑战更加突出。本文通过利用标签高效的视觉全景分割的最新进展,解决了仅用少量标注样本进行LiDAR全景分割的挑战。为此,我们提出了一种新的方法,即有限标签LiDAR全景分割(L3PS),它只需要最少量的标注数据。我们的方法首先利用标签高效的2D网络从一小部分标注图像生成全景伪标签,然后将其投影到点云上。然后,我们引入了一种新的3D细化模块,该模块利用点云的几何属性。通过结合聚类技术、顺序扫描累积和地面点分离,该模块显著提高了伪标签的准确性,将分割质量提高了高达+10.6 PQ和+7.9 mIoU。我们证明了这些精炼的伪标签可以有效地训练现成的LiDAR分割网络。通过大量的实验,我们表明L3PS不仅优于现有方法,而且大大减少了标注负担。我们发布了我们工作的代码在https://l3ps.cs.uni-freiburg.de。
🔬 方法详解
问题定义:LiDAR全景分割旨在同时进行语义分割和实例分割,但现有方法需要大量的标注数据,这限制了其在实际机器人应用中的部署。获取和标注大规模点云数据成本高昂,且模型在不同场景下的泛化能力较差。
核心思路:L3PS的核心思路是利用少量标注的2D图像数据生成伪标签,然后将这些伪标签投影到3D点云上。为了提高伪标签的质量,L3PS引入了一个3D细化模块,该模块利用点云的几何特性来纠正伪标签中的错误。通过这种方式,L3PS可以在仅使用少量标注数据的情况下实现高性能的LiDAR全景分割。
技术框架:L3PS包含以下几个主要阶段:1) 使用标签高效的2D全景分割网络从少量标注图像生成全景伪标签。2) 将2D伪标签投影到3D点云上,为每个点云赋予一个语义和实例标签。3) 使用3D细化模块,该模块利用聚类、顺序扫描累积和地面点分离等技术来提高伪标签的准确性。4) 使用细化后的伪标签训练现成的LiDAR分割网络。
关键创新:L3PS的关键创新在于其3D细化模块,该模块利用点云的几何特性来纠正伪标签中的错误。与直接使用2D投影的伪标签相比,3D细化模块可以显著提高分割精度。此外,L3PS还利用了标签高效的2D全景分割网络,从而进一步减少了对标注数据的需求。
关键设计:3D细化模块的关键设计包括:1) 使用基于距离的聚类算法来识别属于同一实例的点云。2) 利用顺序扫描累积来提高点云的密度和完整性。3) 使用地面点分离算法来去除地面点,从而减少噪声。损失函数方面,可以使用标准的交叉熵损失函数进行语义分割,并使用Dice损失函数进行实例分割。网络结构方面,可以使用现成的LiDAR分割网络,如MinkowskiNet或SPVNAS。
🖼️ 关键图片
📊 实验亮点
L3PS在nuScenes数据集上进行了评估,实验结果表明,L3PS在仅使用少量标注数据的情况下,显著优于现有的LiDAR全景分割方法。具体而言,L3PS将分割质量提高了高达+10.6 PQ和+7.9 mIoU。此外,L3PS还证明了其生成的伪标签可以有效地训练现成的LiDAR分割网络。
🎯 应用场景
L3PS可应用于自动驾驶、机器人导航、三维地图构建等领域。通过减少对大量标注数据的依赖,L3PS能够降低部署成本,并提高模型在不同环境下的泛化能力。该方法有望加速LiDAR全景分割技术在实际场景中的应用,例如智能交通系统、物流仓储自动化等。
📄 摘要(原文)
A main bottleneck of learning-based robotic scene understanding methods is the heavy reliance on extensive annotated training data, which often limits their generalization ability. In LiDAR panoptic segmentation, this challenge becomes even more pronounced due to the need to simultaneously address both semantic and instance segmentation from complex, high-dimensional point cloud data. In this work, we address the challenge of LiDAR panoptic segmentation with very few labeled samples by leveraging recent advances in label-efficient vision panoptic segmentation. To this end, we propose a novel method, Limited-Label LiDAR Panoptic Segmentation (L3PS), which requires only a minimal amount of labeled data. Our approach first utilizes a label-efficient 2D network to generate panoptic pseudo-labels from a small set of annotated images, which are subsequently projected onto point clouds. We then introduce a novel 3D refinement module that capitalizes on the geometric properties of point clouds. By incorporating clustering techniques, sequential scan accumulation, and ground point separation, this module significantly enhances the accuracy of the pseudo-labels, improving segmentation quality by up to +10.6 PQ and +7.9 mIoU. We demonstrate that these refined pseudo-labels can be used to effectively train off-the-shelf LiDAR segmentation networks. Through extensive experiments, we show that L3PS not only outperforms existing methods but also substantially reduces the annotation burden. We release the code of our work at https://l3ps.cs.uni-freiburg.de.