FOMO-3D: Using Vision Foundation Models for Long-Tailed 3D Object Detection

📄 arXiv: 2603.08611v1 📥 PDF

作者: Anqi Joyce Yang, James Tu, Nikita Dvornik, Enxu Li, Raquel Urtasun

分类: cs.CV, cs.RO

发布日期: 2026-03-09

备注: Published at 9th Annual Conference on Robot Learning (CoRL 2025)


💡 一句话要点

FOMO-3D:利用视觉基础模型解决长尾3D目标检测问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长尾3D目标检测 视觉基础模型 多模态融合 自动驾驶 知识迁移

📋 核心要点

  1. 自动驾驶面临长尾3D目标检测挑战,安全相关的罕见目标缺乏训练数据。
  2. FOMO-3D利用视觉基础模型OWLv2和Metric3Dv2的先验知识,提升检测性能。
  3. 实验表明,该方法通过多模态融合,显著提升了长尾3D目标检测的精度。

📝 摘要(中文)

为了在复杂的交通环境中导航,自动驾驶车辆必须识别许多与弱势道路使用者或交通控制设备相关的语义类别。然而,许多安全关键目标(例如,建筑工人)在正常交通条件下出现频率较低,导致仅从驾驶数据中获得的训练样本严重不足。最近的视觉基础模型,在大规模数据语料库上训练,可以作为外部先验知识的良好来源,以提高泛化能力。我们提出了FOMO-3D,这是第一个利用视觉基础模型进行长尾3D检测的多模态3D检测器。具体来说,FOMO-3D在一个两阶段检测范例中利用了OWLv2和Metric3Dv2的丰富语义和深度先验,该范例首先使用基于LiDAR的分支和一个新的基于相机的分支生成提议,然后特别注意来自OWL的图像特征来细化它们。在真实驾驶数据上的评估表明,使用来自视觉基础模型的丰富先验以及仔细的多模态融合设计可以为长尾3D检测带来巨大的收益。

🔬 方法详解

问题定义:自动驾驶场景下的3D目标检测任务中,存在严重的长尾分布问题,即某些类别的目标(如行人、交通标志等)出现频率远高于其他类别(如施工人员、特殊车辆等)。传统方法在处理这些罕见类别时,由于训练数据不足,检测性能显著下降。现有方法难以有效利用外部知识来提升对长尾目标的识别能力。

核心思路:FOMO-3D的核心思路是利用大规模视觉基础模型(如OWLv2和Metric3Dv2)中蕴含的丰富语义和深度先验知识,来弥补长尾类别训练数据不足的问题。通过将视觉基础模型的知识融入到3D目标检测流程中,提高模型对罕见目标的泛化能力。

技术框架:FOMO-3D采用两阶段检测框架。第一阶段,利用LiDAR数据和相机图像分别生成3D目标提议。LiDAR分支负责生成粗略的3D提议,相机分支则利用视觉基础模型提取图像特征,生成基于图像的提议。第二阶段,利用注意力机制,将图像特征与3D提议进行融合,并使用OWLv2的图像特征来细化提议,最终输出精确的3D目标检测结果。

关键创新:FOMO-3D的关键创新在于首次将视觉基础模型应用于长尾3D目标检测任务。通过设计新的多模态融合策略,有效地将视觉基础模型的知识迁移到3D检测任务中,显著提升了对罕见目标的检测性能。

关键设计:FOMO-3D的关键设计包括:1) 新的基于相机的提议生成分支,利用视觉基础模型提取图像特征;2) 注意力机制,用于融合LiDAR和相机分支的特征,并突出图像特征的重要性;3) 利用OWLv2的图像特征进行提议细化,进一步提升检测精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FOMO-3D在真实驾驶数据集上进行了评估,实验结果表明,该方法显著提升了长尾3D目标检测的性能。与现有方法相比,FOMO-3D在罕见类别上的检测精度提升显著,证明了利用视觉基础模型进行知识迁移的有效性。具体性能数据(例如,AP提升幅度)未知,但摘要强调了“large gains”。

🎯 应用场景

该研究成果可应用于自动驾驶、智能交通、机器人等领域,尤其是在需要识别罕见或特殊目标的场景中,例如建筑工地安全监控、特殊车辆识别等。通过提高对长尾目标的检测精度,可以提升系统的安全性和可靠性,减少事故发生的概率,具有重要的实际应用价值和潜在的社会效益。

📄 摘要(原文)

In order to navigate complex traffic environments, self-driving vehicles must recognize many semantic classes pertaining to vulnerable road users or traffic control devices. However, many safety-critical objects (e.g., construction worker) appear infrequently in nominal traffic conditions, leading to a severe shortage of training examples from driving data alone. Recent vision foundation models, which are trained on a large corpus of data, can serve as a good source of external prior knowledge to improve generalization. We propose FOMO-3D, the first multi-modal 3D detector to leverage vision foundation models for long-tailed 3D detection. Specifically, FOMO-3D exploits rich semantic and depth priors from OWLv2 and Metric3Dv2 within a two-stage detection paradigm that first generates proposals with a LiDAR-based branch and a novel camera-based branch, and refines them with attention especially to image features from OWL. Evaluations on real-world driving data show that using rich priors from vision foundation models with careful multi-modal fusion designs leads to large gains for long-tailed 3D detection. Project website is at https://waabi.ai/fomo3d/.