MonoSAOD: Monocular 3D Object Detection with Sparsely Annotated Label

作者: Junyoung Jung, Seokwon Kim, Jung Uk Kim

分类: cs.CV

发布日期: 2026-04-07

💡 一句话要点

提出MonoSAOD，解决单目3D目标检测在稀疏标注下的性能瓶颈。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting)

关键词: 单目3D目标检测 稀疏标注 数据增强 伪标签 原型学习 几何约束 道路感知

📋 核心要点

单目3D目标检测在稀疏标注下性能显著下降，主要原因是缺乏足够的训练数据和难以准确估计目标深度。
论文提出Road-Aware Patch Augmentation (RAPA)和Prototype-Based Filtering (PBF) 两个模块，提升稀疏标注下的检测精度。
实验结果表明，该方法在稀疏标注数据集上取得了显著的性能提升，验证了几何增强和伪标签过滤的有效性。

📝 摘要（中文）

单目3D目标检测在密集标注数据集上取得了显著进展。然而，由于3D标注成本高昂，当只有一小部分目标被标注时，其性能会受到影响。这种稀疏标注的情况在实际场景中很常见，因为标注每个目标是不切实际的。为了解决这个问题，我们提出了一个用于稀疏标注单目3D目标检测的新框架，包含两个关键模块。首先，我们提出了道路感知块增强（RAPA），它通过将分割的目标块增强到道路区域，同时保持3D几何一致性，从而利用稀疏标注。其次，我们提出了基于原型的过滤（PBF），它通过原型相似性和深度不确定性来过滤预测，从而生成高质量的伪标签。它维护全局2D RoI特征原型，并选择与学习的原型在特征上一致且具有可靠深度估计的伪标签。我们的训练策略结合了几何保持增强和原型引导的伪标签，以在稀疏监督下实现鲁棒的检测。大量的实验证明了所提出方法的有效性。

🔬 方法详解

问题定义：论文旨在解决单目3D目标检测在稀疏标注场景下的性能瓶颈问题。现有方法在密集标注数据集上表现良好，但在实际应用中，由于3D标注成本高昂，往往只能获得稀疏标注数据，导致模型性能大幅下降。现有方法难以有效利用稀疏标注信息，并且容易受到噪声伪标签的影响。

核心思路：论文的核心思路是利用几何约束进行数据增强，并结合原型学习进行伪标签过滤，从而在稀疏标注下提升模型的鲁棒性和准确性。通过道路感知块增强（RAPA）来增加训练样本的多样性，并利用基于原型的过滤（PBF）来生成高质量的伪标签，从而弥补稀疏标注带来的信息缺失。

技术框架：整体框架包含两个主要模块：RAPA和PBF。首先，RAPA将分割的目标块增强到道路区域，保持3D几何一致性，从而增加训练样本。然后，利用检测模型生成伪标签，并通过PBF模块进行过滤。PBF模块维护全局2D RoI特征原型，并选择与学习的原型在特征上一致且具有可靠深度估计的伪标签。最后，利用真实标签和过滤后的伪标签共同训练检测模型。

关键创新：论文的关键创新在于RAPA和PBF两个模块的结合。RAPA通过几何约束进行数据增强，有效利用了稀疏标注信息。PBF通过原型学习和深度不确定性估计来过滤伪标签，提高了伪标签的质量。这种结合使得模型能够在稀疏标注下实现鲁棒的3D目标检测。

关键设计：RAPA的关键设计在于将分割的目标块增强到道路区域时，保持3D几何一致性，避免引入不合理的几何信息。PBF的关键设计在于维护全局2D RoI特征原型，并利用原型相似性和深度不确定性来过滤伪标签。损失函数包括真实标签的监督损失和伪标签的自监督损失。网络结构基于现有的单目3D目标检测模型，如FCOS3D。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在稀疏标注数据集上取得了显著的性能提升。例如，在KITTI数据集上，使用10%的标注数据，该方法的性能优于其他方法，并且接近甚至超过了使用全部标注数据的基线模型。RAPA和PBF模块的消融实验也验证了各自的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能监控等领域。在这些领域中，获取密集的3D标注数据成本高昂，而该方法能够在稀疏标注下实现准确的3D目标检测，降低了数据标注成本，加速了相关技术的落地应用。未来，该方法可以进一步扩展到其他3D感知任务中。

📄 摘要（原文）

Monocular 3D object detection has achieved impressive performance on densely annotated datasets. However, it struggles when only a fraction of objects are labeled due to the high cost of 3D annotation. This sparsely annotated setting is common in real-world scenarios where annotating every object is impractical. To address this, we propose a novel framework for sparsely annotated monocular 3D object detection with two key modules. First, we propose Road-Aware Patch Augmentation (RAPA), which leverages sparse annotations by augmenting segmented object patches onto road regions while preserving 3D geometric consistency. Second, we propose Prototype-Based Filtering (PBF), which generates high-quality pseudo-labels by filtering predictions through prototype similarity and depth uncertainty. It maintains global 2D RoI feature prototypes and selects pseudo-labels that are both feature-consistent with learned prototypes and have reliable depth estimates. Our training strategy combines geometry-preserving augmentation with prototype-guided pseudo-labeling to achieve robust detection under sparse supervision. Extensive experiments demonstrate the effectiveness of the proposed method. The source code is available atthis https URL.

MonoSAOD: Monocular 3D Object Detection with Sparsely Annotated Label

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理