Temporal Overlapping Prediction: A Self-supervised Pre-training Method for LiDAR Moving Object Segmentation

📄 arXiv: 2503.07167v2 📥 PDF

作者: Ziliang Miao, Runjian Chen, Yixi Cai, Buwei He, Wenquan Zhao, Wenqi Shao, Bo Zhang, Fu Zhang

分类: cs.CV, cs.RO

发布日期: 2025-03-10 (更新: 2025-10-02)


💡 一句话要点

提出Temporal Overlapping Prediction自监督预训练方法,提升LiDAR点云移动物体分割性能。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: LiDAR点云 移动物体分割 自监督学习 时序重叠预测 点云占据重建

📋 核心要点

  1. LiDAR移动物体分割依赖大量标注数据,成本高昂,而LiDAR序列蕴含丰富的时序运动信息未被充分利用。
  2. 提出Temporal Overlapping Prediction (TOP) 方法,通过预测时序重叠点的占据状态学习时空表征,实现自监督预训练。
  3. 实验表明,TOP方法显著优于监督学习和现有自监督方法,在nuScenes和SemanticKITTI数据集上提升高达28.77%。

📝 摘要(中文)

本文提出了一种名为Temporal Overlapping Prediction (TOP) 的自监督预训练方法,旨在减轻LiDAR点云移动物体分割(MOS)任务对大量手动标注的依赖。TOP方法利用LiDAR序列中常见的时序重叠点,通过预测这些点的占据状态来学习时空表征。此外,本文还利用当前占据重建作为辅助预训练目标,以增强模型对当前结构信息的感知。实验结果表明,传统的交并比(IoU)指标对扫描点较多的物体存在偏差,可能忽略小型或远距离物体。为此,本文引入了mIoU_obj指标来评估物体级别的性能。在nuScenes和SemanticKITTI数据集上的实验表明,TOP方法优于从头开始的监督训练基线和其他自监督预训练基线,相对提升高达28.77%,展示了其在不同LiDAR设置下的强大迁移能力和对其他任务的泛化能力。代码和预训练模型将在发表后公开。

🔬 方法详解

问题定义:LiDAR点云移动物体分割(MOS)是自动驾驶等自主系统的关键技术。现有方法主要依赖有监督学习,需要大量人工标注数据,成本高且难以扩展。如何利用LiDAR序列中天然存在的时序信息,减少对人工标注的依赖,是本文要解决的核心问题。

核心思路:本文的核心思路是利用相邻帧LiDAR扫描数据之间的时序重叠点。这些重叠点在不同时刻被观测到,蕴含了物体的运动信息。通过预测这些重叠点的占据状态,模型可以学习到时空相关的表征,从而提升移动物体分割的性能。同时,利用当前帧的占据重建作为辅助任务,增强模型对当前场景结构的理解。

技术框架:TOP方法的整体框架包含两个主要的预训练目标:时序重叠预测和当前占据重建。首先,从连续的LiDAR帧中提取时序重叠点。然后,模型预测这些重叠点在下一帧的占据状态。同时,模型还重建当前帧的占据状态。这两个任务共同训练模型,使其学习到时空表征和场景结构信息。预训练完成后,模型可以迁移到下游的移动物体分割任务中,进行微调。

关键创新:TOP方法最重要的创新点在于利用了LiDAR序列中固有的时序重叠信息进行自监督学习。与以往的自监督方法不同,TOP方法直接预测时序重叠点的占据状态,从而更有效地学习到物体的运动信息。此外,引入当前占据重建作为辅助任务,进一步提升了模型的性能。

关键设计:在时序重叠预测任务中,使用交叉熵损失函数来衡量预测的占据状态与真实状态之间的差异。在当前占据重建任务中,也使用交叉熵损失函数。两个损失函数加权求和,作为总的预训练损失函数。网络结构方面,可以使用各种现有的点云分割网络,如PointNet++、SPVNAS等。关键参数包括时序重叠点的选择策略、损失函数的权重等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TOP方法在nuScenes和SemanticKITTI数据集上进行了评估,实验结果表明,TOP方法显著优于从头开始的监督训练基线和其他自监督预训练基线。在nuScenes数据集上,TOP方法相对提升高达28.77%。此外,本文还提出了mIoU_obj指标,用于更公平地评估物体级别的性能,避免了传统IoU指标对大型物体的偏差。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、智能安防等领域。通过自监督预训练,可以显著降低对人工标注数据的依赖,加速LiDAR移动物体分割模型的开发和部署。该方法还有潜力推广到其他点云相关的感知任务,例如目标检测、场景重建等,具有重要的实际应用价值和未来发展前景。

📄 摘要(原文)

Moving object segmentation (MOS) on LiDAR point clouds is crucial for autonomous systems like self-driving vehicles. Previous supervised approaches rely heavily on costly manual annotations, while LiDAR sequences naturally capture temporal motion cues that can be leveraged for self-supervised learning. In this paper, we propose Temporal Overlapping Prediction (TOP), a self-supervised pre-training method that alleviate the labeling burden for MOS. TOP explores the temporal overlapping points that commonly observed by current and adjacent scans, and learns spatiotemporal representations by predicting the occupancy states of temporal overlapping points. Moreover, we utilize current occupancy reconstruction as an auxiliary pre-training objective, which enhances the current structural awareness of the model. We conduct extensive experiments and observe that the conventional metric Intersection-over-Union (IoU) shows strong bias to objects with more scanned points, which might neglect small or distant objects. To compensate for this bias, we introduce an additional metric called mIoU_obj to evaluate object-level performance. Experiments on nuScenes and SemanticKITTI show that TOPoutperforms both supervised training-from-scratch baseline and other self-supervised pre-training baselines by up to 28.77% relative improvement, demonstrating strong transferability across LiDAR setups and generalization to other tasks. Code and pre-trained models will be publicly available upon publication.