CTS: Sim-to-Real Unsupervised Domain Adaptation on 3D Detection

📄 arXiv: 2406.18129v2 📥 PDF

作者: Meiying Zhang, Weiyuan Peng, Guangyao Ding, Chenyang Lei, Chunlin Ji, Qi Hao

分类: cs.CV, cs.LG

发布日期: 2024-06-26 (更新: 2024-09-30)


💡 一句话要点

提出CTS框架,解决3D检测中Sim-to-Real无监督域自适应问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: Sim-to-Real 无监督域自适应 3D目标检测 Aleatoric不确定性 Mean Teacher 伪标签 点云

📋 核心要点

  1. 现有Sim-to-Real域自适应方法在3D目标检测中性能下降明显,主要由于仿真和真实数据存在显著的域差异。
  2. CTS框架通过固定大小anchor、RoI增强、角点格式不确定性估计和噪声感知Mean Teacher方法,有效缓解域差异并提升伪标签质量。
  3. 实验结果表明,CTS框架在Sim-to-Real 3D目标检测任务中显著优于现有Real-to-Real UDA算法。

📝 摘要(中文)

本文提出了一种新颖的Complex-to-Simple (CTS)框架,用于将模型从带标签的仿真(源)域迁移到无标签的真实(目标)域,以解决3D目标检测中的Sim-to-Real无监督域自适应问题。该方法基于两阶段检测器,主要贡献包括:1) 开发固定大小的anchor head和RoI增强,以解决两个域之间的尺寸偏差和特征多样性,从而提高伪标签的质量;2) 开发一种新的角点格式的Aleatoric不确定性(AU)表示,用于统一量化bounding box的伪标签质量;3) 开发一种基于AU的噪声感知Mean Teacher域自适应方法,以及对象级和帧级采样策略,以减轻噪声标签的影响。实验结果表明,该方法显著提高了3D目标检测模型的Sim-to-Real域自适应能力,优于通常为Real-to-Real UDA任务开发的state-of-the-art跨域算法。

🔬 方法详解

问题定义:论文旨在解决3D目标检测中,由于仿真数据和真实数据之间存在显著差异,导致模型从仿真环境迁移到真实环境时性能急剧下降的问题。现有的无监督域自适应(UDA)方法主要针对真实数据之间的域自适应,在Sim-to-Real场景下效果不佳,痛点在于如何有效利用仿真数据的标签信息,同时克服与真实数据的差异,生成高质量的伪标签。

核心思路:论文的核心思路是将复杂的仿真数据逐步适应到简单的真实数据,即Complex-to-Simple。通过解决尺寸偏差、特征多样性和伪标签噪声问题,提高模型在真实数据上的泛化能力。具体而言,通过固定大小的anchor head和RoI增强来减小尺寸偏差和增加特征多样性,使用角点格式的Aleatoric不确定性来量化伪标签质量,并利用噪声感知的Mean Teacher方法来减轻噪声标签的影响。

技术框架:CTS框架基于两阶段检测器,包含以下主要模块:1) 特征提取网络:用于提取输入点云的特征;2) 固定大小Anchor Head:生成固定大小的anchor proposals;3) RoI Augmentation:增强RoI特征的多样性;4) Aleatoric Uncertainty Estimation:估计bounding box的角点不确定性;5) Noise-Aware Mean Teacher:基于不确定性的噪声感知Mean Teacher模型进行域自适应训练;6) Object-level and Frame-level Sampling:对象级别和帧级别的采样策略,用于选择高质量的伪标签。

关键创新:论文的关键创新在于:1) 提出固定大小的anchor head和RoI增强,以解决Sim-to-Real场景下的尺寸偏差和特征多样性问题;2) 提出一种新的角点格式的Aleatoric不确定性(AU)表示,用于统一量化bounding box的伪标签质量;3) 提出一种噪声感知的Mean Teacher域自适应方法,结合对象级和帧级采样策略,以减轻噪声标签的影响。与现有方法的本质区别在于,CTS框架专门针对Sim-to-Real场景设计,并充分考虑了仿真数据和真实数据之间的差异。

关键设计:1) 固定大小的anchor head:使用预定义的固定大小的anchor,避免了仿真数据和真实数据之间尺寸分布的差异;2) RoI Augmentation:通过随机旋转、缩放和平移RoI区域,增加RoI特征的多样性;3) 角点格式的Aleatoric不确定性:将bounding box的每个角点的不确定性建模为高斯分布,并使用神经网络预测其方差;4) 噪声感知的Mean Teacher:使用AU作为权重,对Teacher模型生成的伪标签进行加权,从而降低噪声标签的影响;5) 对象级和帧级采样策略:根据AU值,选择高质量的对象和帧进行训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CTS框架在KITTI数据集上显著优于现有的Real-to-Real UDA方法。例如,在Car类别上,CTS框架的AP (Average Precision) 提升了超过5个百分点。此外,消融实验验证了各个模块的有效性,证明了固定大小anchor、RoI增强和噪声感知Mean Teacher方法对性能提升的贡献。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能交通等领域。通过利用仿真数据进行预训练,可以显著降低对真实数据的依赖,从而降低数据采集和标注的成本。此外,该方法可以提高模型在复杂和未知的真实环境中的鲁棒性和泛化能力,为安全可靠的智能系统提供保障。

📄 摘要(原文)

Simulation data can be accurately labeled and have been expected to improve the performance of data-driven algorithms, including object detection. However, due to the various domain inconsistencies from simulation to reality (sim-to-real),cross-domain object detection algorithms usually suffer from dramatic performance drops. While numerous unsupervised domain adaptation (UDA) methods have been developed to address cross-domain tasks between real-world datasets, progress in sim-to-real remains limited. This paper presents a novel Complex-to-Simple (CTS) framework to transfer models from labeled simulation (source) to unlabeled reality (target) domains. Based on a two-stage detector, the novelty of this work is threefold: 1) developing fixed-size anchor heads and RoI augmentation to address size bias and feature diversity between two domains, thereby improving the quality of pseudo-label; 2) developing a novel corner-format representation of aleatoric uncertainty (AU) for the bounding box, to uniformly quantify pseudo-label quality; 3) developing a noise-aware mean teacher domain adaptation method based on AU, as well as object-level and frame-level sampling strategies, to migrate the impact of noisy labels. Experimental results demonstrate that our proposed approach significantly enhances the sim-to-real domain adaptation capability of 3D object detection models, outperforming state-of-the-art cross-domain algorithms, which are usually developed for real-to-real UDA tasks.