Contrastive Learning through Auxiliary Branch for Video Object Detection

📄 arXiv: 2508.20551v1 📥 PDF

作者: Lucas Rakotoarivony

分类: cs.CV

发布日期: 2025-08-28

备注: Accepted paper for ACIVS 2025


💡 一句话要点

提出CLAB方法,通过对比学习辅助分支提升视频目标检测的鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频目标检测 对比学习 辅助分支 动态权重 特征表示

📋 核心要点

  1. 视频目标检测易受图像退化影响,现有方法虽有提升但计算成本高昂。
  2. CLAB方法通过对比学习辅助分支增强特征表示,并采用动态损失权重策略。
  3. 实验表明,CLAB在ImageNet VID数据集上取得了优异的性能,无需额外后处理。

📝 摘要(中文)

视频目标检测是一项具有挑战性的任务,因为视频经常受到图像质量退化的影响,例如运动模糊、遮挡和形变,这使得视频中的目标检测比静态图像中的目标检测困难得多。以往的方法通过采用特征聚合和复杂的后处理技术来提高视频目标检测的性能,但同时也增加了计算负担。为了在不增加推理阶段计算负担的情况下提高对图像退化的鲁棒性,我们提出了一种直接而有效的对比学习辅助分支(CLAB)方法。首先,我们使用对比损失来实现一个对比辅助分支,以增强视频目标检测器骨干网络的特征表示能力。其次,我们提出了一种动态损失权重策略,该策略在训练初期强调辅助特征学习,同时随着训练的收敛逐渐优先考虑检测任务。我们通过全面的实验和消融研究验证了我们的方法,证明了一致的性能提升。在没有任何花哨技巧的情况下,CLAB在ImageNet VID数据集上使用ResNet-101和ResNeXt-101分别达到了84.0% mAP和85.2% mAP的性能,从而实现了基于CNN模型的state-of-the-art性能,而无需额外的后处理方法。

🔬 方法详解

问题定义:视频目标检测面临图像质量退化(如运动模糊、遮挡)的挑战,导致检测精度下降。现有方法通常依赖复杂的特征聚合和后处理技术,虽然能提升性能,但显著增加了计算复杂度,不适用于资源受限的场景。

核心思路:论文的核心思路是通过对比学习来提升骨干网络提取的特征的鲁棒性,使其对图像退化更加不敏感。通过引入一个辅助的对比学习分支,迫使网络学习更具区分性的特征表示,从而提高检测精度。这种方法旨在提高特征质量,而不是依赖于复杂的后处理。

技术框架:CLAB方法主要包含两个分支:主检测分支和对比学习辅助分支。主检测分支负责执行正常的视频目标检测任务。对比学习辅助分支与主分支共享骨干网络,但使用对比损失来训练。在训练过程中,动态损失权重策略用于平衡两个分支的贡献。整体流程是:输入视频帧,通过共享的骨干网络提取特征,然后分别输入到检测分支和对比学习分支,计算各自的损失,并根据动态权重进行加权求和,最终反向传播更新网络参数。

关键创新:该方法最重要的创新点在于将对比学习引入到视频目标检测的骨干网络训练中,并设计了一个辅助分支来实现对比学习。与直接在检测分支上应用对比学习不同,辅助分支的设计允许网络在训练初期专注于学习鲁棒的特征表示,而不会干扰主要的检测任务。此外,动态损失权重策略也是一个关键创新,它能够自适应地调整辅助分支和主分支的贡献,从而优化整体性能。

关键设计:对比学习辅助分支使用InfoNCE损失作为对比损失函数。动态损失权重策略使用一个简单的指数衰减函数来逐渐降低辅助分支的权重,同时增加主分支的权重。具体的网络结构细节取决于所使用的骨干网络(如ResNet-101或ResNeXt-101),辅助分支通常包含几个额外的卷积层和全连接层,用于将特征映射到对比学习的嵌入空间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CLAB方法在ImageNet VID数据集上取得了显著的性能提升。使用ResNet-101作为骨干网络时,达到了84.0%的mAP,使用ResNeXt-101时,达到了85.2%的mAP。这些结果超越了现有的基于CNN的视频目标检测模型,并且无需额外的后处理步骤,证明了CLAB方法的有效性和高效性。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人视觉等领域,尤其是在光照条件差、运动模糊严重的场景下,能够提升目标检测的准确性和鲁棒性。通过提高视频目标检测的性能,可以为这些应用提供更可靠的环境感知能力,从而提升系统的整体性能和安全性。

📄 摘要(原文)

Video object detection is a challenging task because videos often suffer from image deterioration such as motion blur, occlusion, and deformable shapes, making it significantly more difficult than detecting objects in still images. Prior approaches have improved video object detection performance by employing feature aggregation and complex post-processing techniques, though at the cost of increased computational demands. To improve robustness to image degradation without additional computational load during inference, we introduce a straightforward yet effective Contrastive Learning through Auxiliary Branch (CLAB) method. First, we implement a constrastive auxiliary branch using a contrastive loss to enhance the feature representation capability of the video object detector's backbone. Next, we propose a dynamic loss weighting strategy that emphasizes auxiliary feature learning early in training while gradually prioritizing the detection task as training converges. We validate our approach through comprehensive experiments and ablation studies, demonstrating consistent performance gains. Without bells and whistles, CLAB reaches a performance of 84.0% mAP and 85.2% mAP with ResNet-101 and ResNeXt-101, respectively, on the ImageNet VID dataset, thus achieving state-of-the-art performance for CNN-based models without requiring additional post-processing methods.