xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion

📄 arXiv: 2503.15022v1 📥 PDF

作者: Saad Lahlali, Sandra Kara, Hejer Ammar, Florian Chabot, Nicolas Granger, Hervé Le Borgne, Quoc-Cuong Pham

分类: cs.CV

发布日期: 2025-03-19

备注: Accepted at CVPR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出xMOD,利用2D运动信息蒸馏实现2D/3D多目标无监督发现

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 3D目标发现 无监督学习 跨模态学习 蒸馏训练 2D运动信息 场景补全 自动驾驶

📋 核心要点

  1. 3D目标无监督发现主要依赖3D运动,但3D运动存在诸多挑战,限制了其性能和泛化能力。
  2. xMOD利用2D运动信息,通过跨模态蒸馏训练,将2D目标发现的优势迁移到3D,缓解了3D运动的局限性。
  3. 实验表明,xMOD在多个数据集上显著优于现有2D目标发现方法,F1@50指标提升高达15.1。

📝 摘要(中文)

本文提出了一种新颖的框架,利用基于2D运动的2D目标发现的优势,弥合2D和3D模态之间的差距。主要贡献包括:(i) 引入DIOD-3D,这是第一个使用2D运动进行3D数据中多目标发现的基线,结合场景补全作为辅助任务,以实现从稀疏输入数据中进行密集目标定位;(ii) 开发xMOD,一个跨模态训练框架,集成了2D和3D数据,同时始终使用2D运动线索。xMOD采用跨模态的师生训练范式,通过利用领域差距来减轻确认偏差。在推理过程中,该模型支持仅RGB和仅点云输入。此外,我们提出了一种针对我们pipeline的后期融合技术,当两种模态在推理时都可用时,该技术进一步提高了性能。我们在合成数据集(TRIP-PD)和具有挑战性的真实世界数据集(KITTI和Waymo)上广泛评估了我们的方法。值得注意的是,我们的方法在所有数据集上都产生了显著的性能改进,与最先进的2D目标发现相比,F1@50得分提高了+8.7到+15.1。

🔬 方法详解

问题定义:现有3D多目标无监督发现方法主要依赖3D运动信息,但3D运动信息通常稀疏、噪声大,且易受遮挡影响,导致目标定位精度低,泛化能力差。此外,缺乏有效的2D和3D信息融合机制,限制了3D目标发现的性能。

核心思路:利用2D运动信息作为更可靠的线索,通过跨模态蒸馏学习,将2D运动信息中的目标表示知识迁移到3D空间。这种方法可以有效利用2D运动的优势,克服3D运动的局限性,提高3D目标发现的精度和鲁棒性。同时,通过师生学习框架,减轻确认偏差,提升模型的泛化能力。

技术框架:xMOD框架包含以下主要模块:1) 2D目标发现模块:利用2D运动信息提取2D目标proposal;2) 3D目标发现模块:利用3D点云数据进行3D目标proposal生成;3) 跨模态蒸馏模块:通过师生学习,将2D目标发现模块的知识迁移到3D目标发现模块;4) 场景补全模块:作为辅助任务,用于增强3D点云数据的密度,提高目标定位精度;5) 后期融合模块:在推理阶段,融合2D和3D目标proposal,进一步提升性能。

关键创新:1) 提出了一种基于2D运动信息的3D多目标无监督发现框架,弥合了2D和3D模态之间的差距;2) 引入跨模态蒸馏学习,有效利用2D运动的优势,克服3D运动的局限性;3) 设计了DIOD-3D基线,为3D多目标无监督发现提供了一个新的起点。

关键设计:1) 师生学习框架:2D目标发现模块作为教师,3D目标发现模块作为学生,通过最小化教师和学生输出之间的差异,实现知识迁移;2) 损失函数:采用多种损失函数,包括目标存在性损失、目标定位损失和场景补全损失,以优化模型性能;3) 网络结构:采用PointNet++作为3D目标发现模块的主干网络,并针对跨模态蒸馏进行了优化;4) 后期融合:采用加权平均的方式融合2D和3D目标proposal,权重根据置信度进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,xMOD在TRIP-PD、KITTI和Waymo数据集上均取得了显著的性能提升。在KITTI数据集上,与最先进的2D目标发现方法相比,F1@50指标提升了8.7到15.1。此外,xMOD在仅使用RGB或仅使用点云数据的情况下,仍然能够取得良好的性能,表明其具有较强的鲁棒性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能监控等领域。通过无监督的方式发现场景中的目标,可以降低对人工标注数据的依赖,提高系统的智能化水平。例如,在自动驾驶中,可以利用该方法检测行人、车辆等目标,提高驾驶安全性。

📄 摘要(原文)

Object discovery, which refers to the task of localizing objects without human annotations, has gained significant attention in 2D image analysis. However, despite this growing interest, it remains under-explored in 3D data, where approaches rely exclusively on 3D motion, despite its several challenges. In this paper, we present a novel framework that leverages advances in 2D object discovery which are based on 2D motion to exploit the advantages of such motion cues being more flexible and generalizable and to bridge the gap between 2D and 3D modalities. Our primary contributions are twofold: (i) we introduce DIOD-3D, the first baseline for multi-object discovery in 3D data using 2D motion, incorporating scene completion as an auxiliary task to enable dense object localization from sparse input data; (ii) we develop xMOD, a cross-modal training framework that integrates 2D and 3D data while always using 2D motion cues. xMOD employs a teacher-student training paradigm across the two modalities to mitigate confirmation bias by leveraging the domain gap. During inference, the model supports both RGB-only and point cloud-only inputs. Additionally, we propose a late-fusion technique tailored to our pipeline that further enhances performance when both modalities are available at inference. We evaluate our approach extensively on synthetic (TRIP-PD) and challenging real-world datasets (KITTI and Waymo). Notably, our approach yields a substantial performance improvement compared with the 2D object discovery state-of-the-art on all datasets with gains ranging from +8.7 to +15.1 in F1@50 score. The code is available at https://github.com/CEA-LIST/xMOD