Multi-Modal Assistance for Unsupervised Domain Adaptation on Point Cloud 3D Object Detection

📄 arXiv: 2511.07966v1 📥 PDF

作者: Shenao Zhao, Pengpeng Liang, Zhoufan Yang

分类: cs.CV

发布日期: 2025-11-11

备注: Accepted to AAAI-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出MMAssist,利用多模态信息辅助LiDAR点云3D目标检测的无监督域自适应。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)

关键词: 3D目标检测 无监督域自适应 多模态学习 点云 图像特征 文本特征

📋 核心要点

  1. 现有基于伪标签的3D UDA方法忽略了同步采集的图像数据,未能充分利用多模态信息。
  2. MMAssist利用图像和文本特征作为桥梁,对齐源域和目标域的3D特征,实现跨模态知识迁移。
  3. 实验表明,MMAssist在多个数据集上优于现有方法,证明了多模态辅助在3D UDA中的有效性。

📝 摘要(中文)

本文提出了一种名为MMAssist的方法,旨在利用多模态辅助提升基于LiDAR的3D目标检测的无监督域自适应(3D UDA)性能。该方法基于教师-学生架构和伪标签,并设计了一种方法,通过图像和文本特征作为桥梁,对齐源域和目标域之间的3D特征。具体而言,将真值标签或伪标签投影到图像上,获得一组2D边界框。对于每个2D框,从预训练的视觉骨干网络中提取其图像特征,并采用大型视觉-语言模型(LVLM)提取框的文本描述,然后使用预训练的文本编码器获得其文本特征。在源域模型和目标域学生模型的训练过程中,将预测框的3D特征与其对应的图像和文本特征对齐,并将3D特征与对齐的特征融合,通过学习权重进行最终预测。同时,对齐目标域中学生分支和教师分支之间的特征。为了增强伪标签,使用现成的2D目标检测器从图像生成2D边界框,并在点云的帮助下估计其对应的3D框,并将这些3D框与教师模型生成的伪标签相结合。实验结果表明,在三个流行的3D目标检测数据集上的三个域自适应任务中,该方法与最先进的方法相比,取得了有希望的性能。

🔬 方法详解

问题定义:现有基于LiDAR的3D目标检测无监督域自适应方法,通常只关注点云数据本身,忽略了在实际应用中经常同时存在的图像数据。如何有效地利用这些图像数据来提升域自适应的性能是一个关键问题。现有方法未能充分利用图像信息,导致模型在目标域的泛化能力受限。

核心思路:本文的核心思路是利用图像和文本特征作为桥梁,将源域和目标域的3D特征进行对齐。通过将3D目标投影到图像上,提取对应的图像和文本特征,然后将这些特征与3D特征进行融合,从而实现跨模态的知识迁移。这种方法能够有效地利用图像信息,提升模型在目标域的性能。

技术框架:MMAssist的整体框架包括以下几个主要模块:1) 2D目标检测模块:用于在图像上检测2D目标框,可以使用ground truth或者预训练的2D检测器。2) 多模态特征提取模块:用于提取2D目标框的图像特征和文本特征,图像特征通过预训练的视觉骨干网络提取,文本特征通过大型视觉-语言模型和预训练的文本编码器提取。3) 3D特征对齐模块:将3D特征与对应的图像和文本特征进行对齐,并使用学习权重进行融合。4) 伪标签增强模块:使用2D检测器生成的2D框估计3D框,并与教师模型生成的伪标签结合,增强伪标签的质量。

关键创新:该方法最重要的创新点在于利用图像和文本特征作为桥梁,实现了3D特征的跨模态对齐。与现有方法相比,该方法能够更有效地利用图像信息,提升模型在目标域的泛化能力。此外,伪标签增强模块也进一步提升了模型的性能。

关键设计:在3D特征对齐模块中,使用了可学习的权重来融合3D特征和图像/文本特征,允许模型自适应地学习不同模态特征的重要性。损失函数包括3D目标检测损失、特征对齐损失和一致性损失。特征对齐损失用于约束3D特征与图像/文本特征之间的距离,一致性损失用于约束教师模型和学生模型之间的输出一致性。具体参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

实验结果表明,MMAssist在三个流行的3D目标检测数据集(例如,KITTI, Waymo, nuScenes)上的三个域自适应任务中,与最先进的方法相比,取得了显著的性能提升。具体而言,在某些任务上,MMAssist的性能提升超过了5%,证明了该方法在3D UDA中的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能安防等领域。在这些场景中,通常需要利用LiDAR点云进行3D目标检测,而域自适应技术可以帮助模型适应不同的环境和传感器,提高检测的准确性和鲁棒性。未来,该方法可以进一步扩展到其他多模态3D感知任务中。

📄 摘要(原文)

Unsupervised domain adaptation for LiDAR-based 3D object detection (3D UDA) based on the teacher-student architecture with pseudo labels has achieved notable improvements in recent years. Although it is quite popular to collect point clouds and images simultaneously, little attention has been paid to the usefulness of image data in 3D UDA when training the models. In this paper, we propose an approach named MMAssist that improves the performance of 3D UDA with multi-modal assistance. A method is designed to align 3D features between the source domain and the target domain by using image and text features as bridges. More specifically, we project the ground truth labels or pseudo labels to the images to get a set of 2D bounding boxes. For each 2D box, we extract its image feature from a pre-trained vision backbone. A large vision-language model (LVLM) is adopted to extract the box's text description, and a pre-trained text encoder is used to obtain its text feature. During the training of the model in the source domain and the student model in the target domain, we align the 3D features of the predicted boxes with their corresponding image and text features, and the 3D features and the aligned features are fused with learned weights for the final prediction. The features between the student branch and the teacher branch in the target domain are aligned as well. To enhance the pseudo labels, we use an off-the-shelf 2D object detector to generate 2D bounding boxes from images and estimate their corresponding 3D boxes with the aid of point cloud, and these 3D boxes are combined with the pseudo labels generated by the teacher model. Experimental results show that our approach achieves promising performance compared with state-of-the-art methods in three domain adaptation tasks on three popular 3D object detection datasets. The code is available at https://github.com/liangp/MMAssist.