MonoSAOD: Monocular 3D Object Detection with Sparsely Annotated Label

📄 arXiv: 2604.01646 📥 PDF

作者: Junyoung Jung, Seokwon Kim, Jung Uk Kim

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出MonoSAOD,解决单目3D目标检测在稀疏标注下的性能瓶颈。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 单目3D目标检测 稀疏标注 数据增强 伪标签 原型学习 几何约束 道路感知

📋 核心要点

  1. 单目3D目标检测在稀疏标注下性能显著下降,主要原因是缺乏足够的训练数据和难以准确估计目标深度。
  2. 论文提出Road-Aware Patch Augmentation (RAPA)和Prototype-Based Filtering (PBF) 两个模块,提升稀疏标注下的检测精度。
  3. 实验结果表明,该方法在稀疏标注数据集上取得了显著的性能提升,验证了几何增强和伪标签过滤的有效性。

📝 摘要(中文)

单目3D目标检测在密集标注数据集上取得了显著进展。然而,由于3D标注成本高昂,当只有一小部分目标被标注时,其性能会受到影响。这种稀疏标注的情况在实际场景中很常见,因为标注每个目标是不切实际的。为了解决这个问题,我们提出了一个用于稀疏标注单目3D目标检测的新框架,包含两个关键模块。首先,我们提出了道路感知块增强(RAPA),它通过将分割的目标块增强到道路区域,同时保持3D几何一致性,从而利用稀疏标注。其次,我们提出了基于原型的过滤(PBF),它通过原型相似性和深度不确定性来过滤预测,从而生成高质量的伪标签。它维护全局2D RoI特征原型,并选择与学习的原型在特征上一致且具有可靠深度估计的伪标签。我们的训练策略结合了几何保持增强和原型引导的伪标签,以在稀疏监督下实现鲁棒的检测。大量的实验证明了所提出方法的有效性。

🔬 方法详解

问题定义:论文旨在解决单目3D目标检测在稀疏标注场景下的性能瓶颈问题。现有方法在密集标注数据集上表现良好,但在实际应用中,由于3D标注成本高昂,往往只能获得稀疏标注数据,导致模型性能大幅下降。现有方法难以有效利用稀疏标注信息,并且容易受到噪声伪标签的影响。

核心思路:论文的核心思路是利用几何约束进行数据增强,并结合原型学习进行伪标签过滤,从而在稀疏标注下提升模型的鲁棒性和准确性。通过道路感知块增强(RAPA)来增加训练样本的多样性,并利用基于原型的过滤(PBF)来生成高质量的伪标签,从而弥补稀疏标注带来的信息缺失。

技术框架:整体框架包含两个主要模块:RAPA和PBF。首先,RAPA将分割的目标块增强到道路区域,保持3D几何一致性,从而增加训练样本。然后,利用检测模型生成伪标签,并通过PBF模块进行过滤。PBF模块维护全局2D RoI特征原型,并选择与学习的原型在特征上一致且具有可靠深度估计的伪标签。最后,利用真实标签和过滤后的伪标签共同训练检测模型。

关键创新:论文的关键创新在于RAPA和PBF两个模块的结合。RAPA通过几何约束进行数据增强,有效利用了稀疏标注信息。PBF通过原型学习和深度不确定性估计来过滤伪标签,提高了伪标签的质量。这种结合使得模型能够在稀疏标注下实现鲁棒的3D目标检测。

关键设计:RAPA的关键设计在于将分割的目标块增强到道路区域时,保持3D几何一致性,避免引入不合理的几何信息。PBF的关键设计在于维护全局2D RoI特征原型,并利用原型相似性和深度不确定性来过滤伪标签。损失函数包括真实标签的监督损失和伪标签的自监督损失。网络结构基于现有的单目3D目标检测模型,如FCOS3D。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在稀疏标注数据集上取得了显著的性能提升。例如,在KITTI数据集上,使用10%的标注数据,该方法的性能优于其他方法,并且接近甚至超过了使用全部标注数据的基线模型。RAPA和PBF模块的消融实验也验证了各自的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能监控等领域。在这些领域中,获取密集的3D标注数据成本高昂,而该方法能够在稀疏标注下实现准确的3D目标检测,降低了数据标注成本,加速了相关技术的落地应用。未来,该方法可以进一步扩展到其他3D感知任务中。

📄 摘要(原文)

Monocular 3D object detection has achieved impressive performance on densely annotated datasets. However, it struggles when only a fraction of objects are labeled due to the high cost of 3D annotation. This sparsely annotated setting is common in real-world scenarios where annotating every object is impractical. To address this, we propose a novel framework for sparsely annotated monocular 3D object detection with two key modules. First, we propose Road-Aware Patch Augmentation (RAPA), which leverages sparse annotations by augmenting segmented object patches onto road regions while preserving 3D geometric consistency. Second, we propose Prototype-Based Filtering (PBF), which generates high-quality pseudo-labels by filtering predictions through prototype similarity and depth uncertainty. It maintains global 2D RoI feature prototypes and selects pseudo-labels that are both feature-consistent with learned prototypes and have reliable depth estimates. Our training strategy combines geometry-preserving augmentation with prototype-guided pseudo-labeling to achieve robust detection under sparse supervision. Extensive experiments demonstrate the effectiveness of the proposed method. The source code is available atthis https URL.