Unsupervised Domain Adaptation for 3D LiDAR Semantic Segmentation Using Contrastive Learning and Multi-Model Pseudo Labeling

📄 arXiv: 2507.18176v1 📥 PDF

作者: Abhishek Kaushik, Norbert Haala, Uwe Soergel

分类: cs.CV

发布日期: 2025-07-24

DOI: 10.24407/KXP:1928486487


💡 一句话要点

提出基于对比学习和多模型伪标签的LiDAR语义分割无监督域自适应方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无监督域自适应 3D LiDAR语义分割 对比学习 伪标签 多模型集成

📋 核心要点

  1. 领域偏移导致LiDAR语义分割性能下降,而目标域数据标注成本高昂,现有方法难以有效解决该问题。
  2. 利用对比学习提取领域不变特征,并采用多模型集成生成高质量伪标签,提升模型在目标域的泛化能力。
  3. 实验结果表明,该方法在跨数据集场景下显著提升了LiDAR语义分割精度,优于现有单模型UDA方法。

📝 摘要(中文)

本文提出了一种用于3D LiDAR语义分割的无监督域自适应(UDA)框架,旨在解决因领域偏移(如传感器类型、地理位置)导致的性能下降问题。该框架包含两个阶段:首先,利用无监督对比学习在分割级别预训练骨干网络,使其学习鲁棒的、领域不变的特征。其次,引入多模型伪标签策略,利用多种先进架构(包括投影、体素、混合和圆柱方法)的集成。通过硬投票聚合这些模型的预测,为未标记的目标域生成高质量、精细化的伪标签,从而减轻单一模型的偏差。然后,使用这些鲁棒的伪标签对经过对比预训练的网络进行微调。在从SemanticKITTI到未标记目标数据集(SemanticPOSS、SemanticSlamantic)的自适应实验中,与直接迁移和单模型UDA方法相比,分割精度显著提高。结果表明,结合对比预训练和精细化集成伪标签对于弥合复杂的领域差距非常有效,且无需目标域标注。

🔬 方法详解

问题定义:论文旨在解决3D LiDAR语义分割中,由于源域和目标域数据分布差异导致的模型性能下降问题。直接将源域训练的模型应用于目标域,分割精度会显著降低。现有无监督域自适应方法通常依赖于单一模型生成伪标签,容易受到模型偏差的影响,导致伪标签质量不高。

核心思路:论文的核心思路是结合对比学习和多模型伪标签策略,提升模型在目标域的泛化能力。首先,通过对比学习提取领域不变的特征表示,减少源域和目标域之间的差异。然后,利用多个不同架构的模型生成伪标签,并通过集成的方式提高伪标签的质量,从而更有效地训练目标域模型。

技术框架:该框架包含两个主要阶段:1) 对比学习预训练阶段:使用源域数据,通过对比学习训练骨干网络,使其学习领域不变的特征表示。2) 多模型伪标签生成与微调阶段:使用多个不同的3D语义分割模型(如基于投影、体素、混合和圆柱的方法)对目标域数据进行预测,通过硬投票的方式集成这些预测结果,生成高质量的伪标签。然后,使用这些伪标签对预训练的骨干网络进行微调,使其适应目标域的数据分布。

关键创新:该论文的关键创新在于:1) 提出了一种基于对比学习的领域不变特征提取方法,能够有效减少源域和目标域之间的差异。2) 引入了一种多模型伪标签策略,通过集成多个模型的预测结果,提高了伪标签的质量和鲁棒性,降低了单一模型偏差的影响。

关键设计:在对比学习阶段,使用了分割级别的对比损失函数,鼓励相似分割具有相似的特征表示,不同分割具有不同的特征表示。在多模型伪标签生成阶段,选择了多种具有代表性的3D语义分割模型,并采用硬投票的方式进行集成。在微调阶段,使用了交叉熵损失函数,并对伪标签进行了置信度加权,以进一步提高训练的稳定性。

📊 实验亮点

实验结果表明,该方法在SemanticPOSS和SemanticSlamantic数据集上,相比于直接迁移和单模型UDA方法,分割精度显著提高。例如,在SemanticPOSS数据集上,mIoU提升了超过5个百分点,证明了该方法在跨数据集场景下的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智慧城市等领域。通过提升LiDAR语义分割在不同环境下的鲁棒性,可以提高自动驾驶车辆对周围环境的感知能力,增强机器人在复杂环境中的导航能力,并为智慧城市提供更精确的三维环境信息。

📄 摘要(原文)

Addressing performance degradation in 3D LiDAR semantic segmentation due to domain shifts (e.g., sensor type, geographical location) is crucial for autonomous systems, yet manual annotation of target data is prohibitive. This study addresses the challenge using Unsupervised Domain Adaptation (UDA) and introduces a novel two-stage framework to tackle it. Initially, unsupervised contrastive learning at the segment level is used to pre-train a backbone network, enabling it to learn robust, domain-invariant features without labels. Subsequently, a multi-model pseudo-labeling strategy is introduced, utilizing an ensemble of diverse state-of-the-art architectures (including projection, voxel, hybrid, and cylinder-based methods). Predictions from these models are aggregated via hard voting to generate high-quality, refined pseudo-labels for the unlabeled target domain, mitigating single-model biases. The contrastively pre-trained network is then fine-tuned using these robust pseudo-labels. Experiments adapting from SemanticKITTI to unlabeled target datasets (SemanticPOSS, SemanticSlamantic) demonstrate significant improvements in segmentation accuracy compared to direct transfer and single-model UDA approaches. These results highlight the effectiveness of combining contrastive pre-training with refined ensemble pseudo-labeling for bridging complex domain gaps without requiring target domain annotations.