SALT: A Flexible Semi-Automatic Labeling Tool for General LiDAR Point Clouds with Cross-Scene Adaptability and 4D Consistency

📄 arXiv: 2503.23980v2 📥 PDF

作者: Yanbo Wang, Yongtao Chen, Chuan Cao, Tianchen Deng, Wentao Zhao, Jingchuan Wang, Weidong Chen

分类: cs.CV, cs.RO

发布日期: 2025-03-31 (更新: 2025-06-23)

🔗 代码/项目: GITHUB


💡 一句话要点

提出SALT:一种灵活的半自动LiDAR点云标注工具,具备跨场景适应性和4D一致性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LiDAR点云 半自动标注 零样本学习 数据对齐 4D一致性

📋 核心要点

  1. 现有LiDAR点云标注方法依赖相机信息或人工标注,成本高昂且难以泛化到不同场景。
  2. SALT通过数据对齐将LiDAR数据转换为伪图像,利用视觉基础模型进行零样本预分割,无需额外训练。
  3. SALT结合4D一致性策略和非极大值抑制,显著提升了预分割质量和时间一致性,降低了人工标注负担。

📝 摘要(中文)

本文提出了一种灵活的半自动标注工具(SALT),用于通用LiDAR点云,具备跨场景适应性和4D一致性。与依赖相机蒸馏的现有方法不同,SALT直接处理原始LiDAR数据,自动生成预分割结果。为此,我们提出了一种新颖的零样本学习范式,称为数据对齐,通过与视觉基础模型的训练分布对齐,将LiDAR数据转换为伪图像。此外,我们设计了一种4D一致的提示策略和4D非极大值抑制模块,以增强SAM2,确保高质量、时间一致的预分割。SALT在SemanticKITTI上超越了最新的零样本方法18.4% PQ,并在我们新收集的低分辨率LiDAR数据以及来自三种LiDAR类型的组合数据上,达到了接近人类标注者40-50%的性能,显著提高了标注效率。我们预计SALT的开源将促进当前LiDAR数据集的大幅扩展,并为未来LiDAR基础模型的发展奠定基础。

🔬 方法详解

问题定义:现有的LiDAR点云标注方法通常依赖于相机图像的辅助信息,或者需要大量的人工标注,这限制了它们在没有相机数据或标注数据的新场景中的应用。此外,直接在点云上进行标注通常效率较低,且难以保证时间维度上的一致性。因此,如何高效、自动地为各种LiDAR数据生成高质量的标注,是一个亟待解决的问题。

核心思路:SALT的核心思路是利用视觉领域预训练的强大基础模型(如SAM2)的泛化能力,通过将LiDAR数据转换成视觉模型可以理解的伪图像,实现零样本的预分割。同时,为了保证时间维度上标注的一致性,引入了4D一致性策略和非极大值抑制方法。

技术框架:SALT的整体流程如下:1) 数据对齐:将原始LiDAR点云数据通过数据对齐模块转换成伪图像。2) 预分割:利用SAM2对伪图像进行分割,生成初始的分割结果。3) 4D一致性增强:通过4D一致性提示策略和4D非极大值抑制模块,对分割结果进行优化,提高时间维度上的一致性。4) 人工校正:人工对预分割结果进行校正,完成最终的标注。

关键创新:SALT的关键创新在于以下几个方面:1) 提出了数据对齐的零样本学习范式,将LiDAR数据转换成伪图像,从而能够利用视觉基础模型进行预分割。2) 设计了4D一致性提示策略和4D非极大值抑制模块,有效地提高了分割结果的时间一致性。3) 该方法直接作用于原始LiDAR数据,不需要额外的相机信息。

关键设计:数据对齐模块的具体实现细节未知,但其目标是将LiDAR数据转换成与视觉基础模型训练数据分布相似的伪图像。4D一致性提示策略可能涉及到利用相邻帧的分割结果作为提示信息,来指导当前帧的分割。4D非极大值抑制模块则是在时间维度上进行非极大值抑制,以消除冗余的分割结果,保证时间一致性。具体的参数设置和损失函数等细节在论文中可能有所描述,但此处无法得知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SALT在SemanticKITTI数据集上超越了最新的零样本方法18.4% PQ,并在新收集的低分辨率LiDAR数据以及来自三种LiDAR类型的组合数据上,达到了接近人类标注者40-50%的性能。这些结果表明,SALT能够显著提高LiDAR数据标注的效率和质量,具有很强的竞争力。

🎯 应用场景

SALT可广泛应用于自动驾驶、机器人导航、三维地图构建等领域。通过降低LiDAR数据标注的成本和时间,SALT能够加速相关算法的开发和部署。此外,SALT的跨场景适应性使其能够应用于各种不同的LiDAR数据,具有很高的实用价值。未来,SALT有望成为LiDAR数据标注的标准工具,推动LiDAR技术的发展。

📄 摘要(原文)

We propose a flexible Semi-Automatic Labeling Tool (SALT) for general LiDAR point clouds with cross-scene adaptability and 4D consistency. Unlike recent approaches that rely on camera distillation, SALT operates directly on raw LiDAR data, automatically generating pre-segmentation results. To achieve this, we propose a novel zero-shot learning paradigm, termed data alignment, which transforms LiDAR data into pseudo-images by aligning with the training distribution of vision foundation models. Additionally, we design a 4D-consistent prompting strategy and 4D non-maximum suppression module to enhance SAM2, ensuring high-quality, temporally consistent presegmentation. SALT surpasses the latest zero-shot methods by 18.4% PQ on SemanticKITTI and achieves nearly 40-50% of human annotator performance on our newly collected low-resolution LiDAR data and on combined data from three LiDAR types, significantly boosting annotation efficiency. We anticipate that SALT's open-sourcing will catalyze substantial expansion of current LiDAR datasets and lay the groundwork for the future development of LiDAR foundation models. Code is available at https://github.com/Cavendish518/SALT.