WARM-3D: A Weakly-Supervised Sim2Real Domain Adaptation Framework for Roadside Monocular 3D Object Detection

📄 arXiv: 2407.20818v1 📥 PDF

作者: Xingcheng Zhou, Deyu Fu, Walter Zimmer, Mingyu Liu, Venkatnarayanan Lakshminarasimhan, Leah Strand, Alois C. Knoll

分类: cs.CV

发布日期: 2024-07-30


💡 一句话要点

提出WARM-3D框架,用于解决路侧单目3D目标检测中的Sim2Real域适应问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 单目3D目标检测 域适应 弱监督学习 Sim2Real 路侧感知

📋 核心要点

  1. 路侧感知系统缺乏大规模高质量3D数据集,限制了其性能提升。
  2. WARM-3D框架利用合成数据和2D检测结果进行弱监督,实现Sim2Real域适应。
  3. 实验表明,WARM-3D显著提升了单目3D目标检测的性能,并增强了泛化能力。

📝 摘要(中文)

现有的路侧感知系统受限于缺乏公开、大规模、高质量的3D数据集。利用经济高效的大量合成数据集是解决这一挑战并提高路侧单目3D检测性能的可行方案。本研究引入了TUMTraf合成数据集,它提供了多样且大量的优质3D数据,以扩充稀缺的真实世界数据集。此外,我们提出了WARM-3D,一个简洁而有效的框架,用于辅助路侧单目3D检测的Sim2Real域迁移。我们的方法利用廉价的合成数据集和现成的2D检测器的2D标签进行弱监督。结果表明,WARM-3D显著提高了性能,仅使用伪2D监督就比基线提高了+12.40%的mAP 3D。使用2D GT作为弱标签时,WARM-3D甚至达到了接近Oracle基线的性能。此外,WARM-3D提高了3D检测器在各种真实世界环境中识别未见样本的能力,突显了其在实际应用中的潜力。

🔬 方法详解

问题定义:论文旨在解决路侧单目3D目标检测中,由于真实数据稀缺,模型难以从合成数据泛化到真实场景的问题。现有方法通常需要大量的标注数据或者复杂的域适应策略,成本较高且效果有限。

核心思路:WARM-3D的核心思路是利用易于获取的合成数据和现成的2D目标检测器提供的2D标签作为弱监督信号,来指导3D检测器的训练,从而实现从合成域到真实域的迁移。这种方法降低了对3D标注数据的依赖,并简化了域适应过程。

技术框架:WARM-3D框架主要包含以下几个阶段:1) 使用合成数据训练一个初始的3D检测器。2) 利用现成的2D检测器在真实数据上生成伪2D标签。3) 使用合成数据和带有伪2D标签的真实数据,通过弱监督学习进一步优化3D检测器。

关键创新:WARM-3D的关键创新在于其弱监督域适应策略,它巧妙地利用了2D检测器的输出作为3D检测器的监督信号,避免了直接进行复杂的3D域适应。此外,该框架简洁有效,易于实现和部署。

关键设计:WARM-3D的关键设计包括:1) 使用高质量的TUMTraf合成数据集,保证了合成数据的真实性和多样性。2) 选择合适的2D检测器,确保伪2D标签的准确性。3) 设计有效的损失函数,平衡合成数据和真实数据之间的差异,并充分利用2D标签提供的弱监督信息。具体的损失函数细节和网络结构选择在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,WARM-3D框架在路侧单目3D目标检测任务上取得了显著的性能提升。仅使用伪2D监督,WARM-3D就比基线方法提高了+12.40%的mAP 3D。当使用2D GT作为弱标签时,WARM-3D的性能甚至接近Oracle基线。此外,WARM-3D还提高了3D检测器在未见真实场景中的泛化能力。

🎯 应用场景

WARM-3D框架可应用于智能交通、自动驾驶等领域,尤其适用于路侧感知系统。通过利用合成数据和2D检测结果,该方法能够降低对昂贵3D标注数据的依赖,加速3D目标检测模型的开发和部署,提升路侧感知系统的安全性和可靠性。未来,该方法可以扩展到其他单目3D检测任务中。

📄 摘要(原文)

Existing roadside perception systems are limited by the absence of publicly available, large-scale, high-quality 3D datasets. Exploring the use of cost-effective, extensive synthetic datasets offers a viable solution to tackle this challenge and enhance the performance of roadside monocular 3D detection. In this study, we introduce the TUMTraf Synthetic Dataset, offering a diverse and substantial collection of high-quality 3D data to augment scarce real-world datasets. Besides, we present WARM-3D, a concise yet effective framework to aid the Sim2Real domain transfer for roadside monocular 3D detection. Our method leverages cheap synthetic datasets and 2D labels from an off-the-shelf 2D detector for weak supervision. We show that WARM-3D significantly enhances performance, achieving a +12.40% increase in mAP 3D over the baseline with only pseudo-2D supervision. With 2D GT as weak labels, WARM-3D even reaches performance close to the Oracle baseline. Moreover, WARM-3D improves the ability of 3D detectors to unseen sample recognition across various real-world environments, highlighting its potential for practical applications.