Long-Tailed Object Detection Pre-training: Dynamic Rebalancing Contrastive Learning with Dual Reconstruction

📄 arXiv: 2411.09453v1 📥 PDF

作者: Chen-Long Duan, Yong Li, Xiu-Shen Wei, Lin Zhao

分类: cs.CV, cs.LG

发布日期: 2024-11-14

备注: Accepted by NeurIPS 2024


💡 一句话要点

提出2DRCL,用于长尾目标检测预训练,提升尾部类别性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 长尾目标检测 预训练 对比学习 动态重平衡 双重重建 数据不平衡 简单性偏差

📋 核心要点

  1. 现有预训练方法在长尾目标检测中面临数据不平衡和简单性偏差的挑战,导致尾部类别性能不佳。
  2. 提出动态重平衡对比学习与双重重建(2DRCL),通过整体-局部对比学习和动态重平衡策略解决上述问题。
  3. 实验表明,2DRCL在COCO和LVIS数据集上显著提升了尾部类别的mAP/AP分数,验证了其有效性。

📝 摘要(中文)

预训练在目标识别和检测等视觉任务中起着至关重要的作用。常用的预训练方法通常依赖于随机方法(如均匀或高斯分布)来初始化模型参数,但在面对长尾分布时,尤其是在检测任务中,往往表现不佳。这主要是由于极端的数据不平衡和简单性偏差问题。本文提出了一种新的目标检测预训练框架,称为动态重平衡对比学习与双重重建(2DRCL)。我们的方法建立在整体-局部对比学习机制之上,通过捕获全局上下文语义和详细的局部模式,使预训练与目标检测对齐。为了解决长尾数据中固有的不平衡问题,我们设计了一种动态重平衡策略,该策略在整个预训练过程中调整对代表性不足的实例的采样,从而确保更好地表示尾部类别。此外,双重重建通过执行与自洽性原则对齐的重建任务来解决简单性偏差,特别有利于代表性不足的尾部类别。在COCO和LVIS v1.0数据集上的实验证明了我们方法的有效性,尤其是在提高尾部类别的mAP/AP分数方面。

🔬 方法详解

问题定义:长尾目标检测预训练面临的关键问题是数据分布不平衡,即头部类别样本数量远大于尾部类别。传统的预训练方法,如使用随机初始化或在ImageNet等数据集上预训练,难以有效学习尾部类别的特征,导致检测性能下降。此外,模型容易陷入简单性偏差,即倾向于学习头部类别的简单特征,而忽略尾部类别的复杂特征。

核心思路:论文的核心思路是通过动态重平衡对比学习和双重重建来解决长尾数据带来的问题。动态重平衡对比学习旨在平衡不同类别样本的学习权重,使模型能够充分学习尾部类别的特征。双重重建则通过强制模型重建输入,避免模型陷入简单性偏差,从而提升尾部类别的性能。

技术框架:2DRCL框架包含三个主要模块:整体-局部对比学习模块、动态重平衡模块和双重重建模块。整体-局部对比学习模块通过对比全局上下文和局部区域的特征,使预训练任务与目标检测任务对齐。动态重平衡模块根据类别样本数量动态调整采样概率,增加尾部类别的采样概率。双重重建模块通过重建输入图像,迫使模型学习更鲁棒的特征表示。

关键创新:该论文的关键创新在于提出了动态重平衡对比学习和双重重建相结合的预训练框架。动态重平衡策略能够有效缓解数据不平衡问题,双重重建则能够避免模型陷入简单性偏差。与传统的预训练方法相比,2DRCL更适用于长尾目标检测任务。

关键设计:动态重平衡模块使用类别样本数量的倒数作为采样权重,并引入温度系数来控制采样概率的平滑程度。双重重建模块使用L1损失函数来衡量重建图像与原始图像之间的差异。整体-局部对比学习模块使用InfoNCE损失函数来最大化正样本对之间的相似度,最小化负样本对之间的相似度。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,2DRCL在COCO和LVIS v1.0数据集上均取得了显著的性能提升。在LVIS v1.0数据集上,2DRCL在尾部类别上的AP提升尤为明显,超过了其他预训练方法。这表明2DRCL能够有效解决长尾数据带来的问题,提升尾部类别的检测性能。

🎯 应用场景

该研究成果可应用于各种长尾目标检测场景,例如自动驾驶、智能监控、医学图像分析等。在这些场景中,数据往往呈现长尾分布,少数类别的样本数量远大于多数类别。通过使用该预训练方法,可以有效提升模型在这些场景下的检测性能,尤其是在尾部类别的检测精度方面,具有重要的实际应用价值。

📄 摘要(原文)

Pre-training plays a vital role in various vision tasks, such as object recognition and detection. Commonly used pre-training methods, which typically rely on randomized approaches like uniform or Gaussian distributions to initialize model parameters, often fall short when confronted with long-tailed distributions, especially in detection tasks. This is largely due to extreme data imbalance and the issue of simplicity bias. In this paper, we introduce a novel pre-training framework for object detection, called Dynamic Rebalancing Contrastive Learning with Dual Reconstruction (2DRCL). Our method builds on a Holistic-Local Contrastive Learning mechanism, which aligns pre-training with object detection by capturing both global contextual semantics and detailed local patterns. To tackle the imbalance inherent in long-tailed data, we design a dynamic rebalancing strategy that adjusts the sampling of underrepresented instances throughout the pre-training process, ensuring better representation of tail classes. Moreover, Dual Reconstruction addresses simplicity bias by enforcing a reconstruction task aligned with the self-consistency principle, specifically benefiting underrepresented tail classes. Experiments on COCO and LVIS v1.0 datasets demonstrate the effectiveness of our method, particularly in improving the mAP/AP scores for tail classes.