DPO: Dual-Perturbation Optimization for Test-time Adaptation in 3D Object Detection
作者: Zhuoxiao Chen, Zixin Wang, Yadan Luo, Sen Wang, Zi Huang
分类: cs.CV, cs.AI
发布日期: 2024-06-19 (更新: 2024-07-28)
备注: To appear in ACM Multimedia 2024
💡 一句话要点
提出双扰动优化DPO,用于3D目标检测中的测试时自适应。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 3D目标检测 测试时自适应 领域自适应 双扰动优化 伪标签过滤
📋 核心要点
- 现有3D目标检测模型在测试时,由于数据分布差异,泛化能力不足导致性能显著下降。
- 提出双扰动优化(DPO)方法,通过最小化损失面锐度和引入对抗扰动,增强模型对数据变化的鲁棒性。
- 实验表明,DPO在Waymo -> KITTI迁移任务上,AP_3D指标超越现有最佳方法57.72%,接近完全监督上限。
📝 摘要(中文)
基于激光雷达的3D目标检测取得了显著进展。然而,当测试数据分布因天气条件、物体大小等因素与训练数据显著不同时,将训练好的3D检测器部署到现实世界通常会产生不令人满意的性能。性能下降的关键因素是预训练模型的泛化能力降低,这在训练过程中会产生剧烈的损失面。在测试过程中遇到这种剧烈变化时,即使是很小的数据变化也可能导致性能显著下降。为了解决上述挑战,我们提出了一种用于3D目标检测中测试时自适应的双扰动优化(DPO)。我们最小化锐度以培养平坦的损失面,以确保模型对微小数据变化的弹性,从而增强自适应过程的泛化能力。为了充分捕捉测试点云的固有可变性,我们进一步将对抗扰动引入到输入BEV特征中,以更好地模拟嘈杂的测试环境。由于双扰动策略依赖于可信的监督信号,我们利用可靠的匈牙利匹配器来过滤掉对扰动敏感的伪标签。此外,我们引入了早期匈牙利截止,通过停止自适应过程来避免来自不正确伪标签的错误累积。在三种类型的迁移任务中进行的大量实验表明,所提出的DPO显著优于以前最先进的方法,特别是在Waymo -> KITTI上,在AP_3D中优于最具竞争力的基线57.72%,达到完全监督上限的91%。
🔬 方法详解
问题定义:论文旨在解决3D目标检测模型在测试时自适应的问题。现有方法在面对与训练数据分布存在差异的测试数据时,由于模型泛化能力不足,导致性能急剧下降。这种性能下降的根本原因是预训练模型在训练过程中形成的损失面过于尖锐,对微小的数据扰动非常敏感。
核心思路:论文的核心思路是通过优化损失面,使其更加平坦,从而提高模型对数据扰动的鲁棒性。具体来说,论文提出了双扰动优化(DPO)方法,同时从两个方面进行优化:一是最小化损失面的锐度,二是引入对抗扰动来模拟测试环境中的噪声。
技术框架:DPO方法主要包含以下几个阶段:1) 特征提取:使用预训练的3D目标检测模型提取BEV特征。2) 双扰动:对BEV特征进行两种扰动,包括最小化损失面锐度的扰动和对抗扰动。3) 伪标签生成与过滤:使用扰动后的特征生成伪标签,并使用匈牙利匹配器过滤掉对扰动敏感的不可靠伪标签。4) 模型更新:使用过滤后的伪标签更新模型参数。5) 早期截止:为了避免错误累积,在自适应过程的早期阶段设置截止条件,停止自适应。
关键创新:DPO方法的关键创新在于其双扰动策略和伪标签过滤机制。双扰动策略能够同时优化损失面的锐度和模拟测试环境中的噪声,从而提高模型的鲁棒性。伪标签过滤机制能够有效去除不可靠的伪标签,避免错误累积。与现有方法相比,DPO方法能够更有效地利用测试数据进行自适应,从而提高模型的泛化能力。
关键设计:DPO方法的关键设计包括:1) 损失函数:使用交叉熵损失函数和L2正则化项来最小化损失面的锐度。2) 对抗扰动:使用梯度上升法生成对抗扰动,并限制扰动的大小。3) 匈牙利匹配器:使用匈牙利匹配器来匹配预测框和真实框,并根据匹配结果过滤伪标签。4) 早期截止:根据伪标签的质量设置截止条件,当伪标签的质量低于阈值时,停止自适应。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DPO方法在Waymo -> KITTI迁移任务上取得了显著的性能提升,AP_3D指标超越现有最佳方法57.72%,达到完全监督上限的91%。此外,DPO方法在其他迁移任务上也表现出优异的性能,验证了其有效性和泛化能力。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、智能交通等领域,提升3D目标检测系统在复杂、多变环境下的适应性和可靠性。通过测试时自适应,减少对大量标注数据的依赖,降低部署成本,加速3D视觉技术在实际场景中的落地。
📄 摘要(原文)
LiDAR-based 3D object detection has seen impressive advances in recent times. However, deploying trained 3D detectors in the real world often yields unsatisfactory performance when the distribution of the test data significantly deviates from the training data due to different weather conditions, object sizes, \textit{etc}. A key factor in this performance degradation is the diminished generalizability of pre-trained models, which creates a sharp loss landscape during training. Such sharpness, when encountered during testing, can precipitate significant performance declines, even with minor data variations. To address the aforementioned challenges, we propose \textbf{dual-perturbation optimization (DPO)} for \textbf{\underline{T}est-\underline{t}ime \underline{A}daptation in \underline{3}D \underline{O}bject \underline{D}etection (TTA-3OD)}. We minimize the sharpness to cultivate a flat loss landscape to ensure model resiliency to minor data variations, thereby enhancing the generalization of the adaptation process. To fully capture the inherent variability of the test point clouds, we further introduce adversarial perturbation to the input BEV features to better simulate the noisy test environment. As the dual perturbation strategy relies on trustworthy supervision signals, we utilize a reliable Hungarian matcher to filter out pseudo-labels sensitive to perturbations. Additionally, we introduce early Hungarian cutoff to avoid error accumulation from incorrect pseudo-labels by halting the adaptation process. Extensive experiments across three types of transfer tasks demonstrate that the proposed DPO significantly surpasses previous state-of-the-art approaches, specifically on Waymo $\rightarrow$ KITTI, outperforming the most competitive baseline by 57.72\% in $\text{AP}_\text{3D}$ and reaching 91\% of the fully supervised upper bound.