Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection

📄 arXiv: 2503.04688v1 📥 PDF

作者: Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto

分类: cs.CV

发布日期: 2025-03-06


💡 一句话要点

提出YOLO LwF,一种基于自蒸馏的YOLO持续目标检测方法,显著缓解灾难性遗忘。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 持续学习 目标检测 YOLO 自蒸馏 灾难性遗忘 知识蒸馏 增量学习

📋 核心要点

  1. 现有持续学习目标检测方法在单阶段检测器(如YOLO)上效果不佳,主要原因是回归输出噪声导致知识传递受损。
  2. 论文提出YOLO LwF,一种基于自蒸馏的持续学习方法,通过知识蒸馏缓解灾难性遗忘,并结合重放记忆进一步提升性能。
  3. 实验结果表明,YOLO LwF在VOC和COCO数据集上均取得了state-of-the-art的性能,mAP分别提升了2.1%和2.9%。

📝 摘要(中文)

YOLO等实时目标检测器在大型数据集上经过多轮训练后表现出色。然而,在数据增量到达的实际场景中,神经网络会遭受灾难性遗忘,导致先前学习的知识丢失。为了解决这个问题,之前的研究探索了目标检测持续学习(CLOD)中的类增量学习(CIL)策略,其中大多数方法侧重于两阶段目标检测器。然而,现有工作表明,由于回归输出的噪声,无遗忘学习(LwF)可能对像YOLO这样的单阶段无锚框检测器无效,这会带来传递损坏知识的风险。在这项工作中,我们引入了YOLO LwF,一种专为基于YOLO的持续目标检测量身定制的自蒸馏方法。我们证明,当与重放记忆结合使用时,YOLO LwF可以显著减轻遗忘。与以前的方法相比,它实现了最先进的性能,在VOC和COCO基准测试中分别提高了+2.1%和+2.9%的mAP。

🔬 方法详解

问题定义:论文旨在解决持续学习场景下,YOLO等单阶段目标检测器在面对新类别数据时,容易遗忘先前学习的知识(即灾难性遗忘)的问题。现有基于LwF的方法在YOLO上效果不佳,因为YOLO的回归输出存在噪声,导致蒸馏过程中传递了错误的知识。

核心思路:论文的核心思路是利用自蒸馏来缓解灾难性遗忘。具体来说,使用先前模型的输出来指导当前模型的学习,从而保留先前学习的知识。同时,结合重放记忆,将先前的数据样本存储起来,用于训练当前模型,进一步提升性能。

技术框架:YOLO LwF的整体框架包括以下几个主要模块:1)YOLO检测器:使用YOLO作为基础的目标检测模型。2)自蒸馏模块:利用先前模型的输出(包括分类和回归结果)作为教师信号,指导当前模型的学习。3)重放记忆模块:存储先前任务的数据样本,用于当前任务的训练。训练过程是增量式的,每当有新的类别数据到达时,就使用自蒸馏和重放记忆来训练YOLO模型。

关键创新:论文最重要的技术创新点在于针对YOLO等单阶段检测器,设计了一种有效的自蒸馏方法。与传统的LwF方法不同,YOLO LwF更加关注如何减少回归输出噪声对知识传递的影响,从而提升了蒸馏效果。此外,将自蒸馏与重放记忆相结合,进一步提升了性能。

关键设计:在自蒸馏模块中,论文使用了分类损失和回归损失来进行知识蒸馏。分类损失用于保证当前模型能够正确分类先前学习的类别,回归损失用于保证当前模型能够正确回归先前学习的目标框。具体来说,分类损失可以使用交叉熵损失,回归损失可以使用IoU损失或Smooth L1损失。重放记忆模块的大小需要根据实际情况进行调整,通常需要存储一定数量的先前任务的数据样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

YOLO LwF在VOC和COCO数据集上进行了实验验证。实验结果表明,YOLO LwF在两个数据集上均取得了state-of-the-art的性能。在VOC数据集上,YOLO LwF的mAP提升了2.1%。在COCO数据集上,YOLO LwF的mAP提升了2.9%。这些结果表明,YOLO LwF可以有效地缓解灾难性遗忘问题,提升持续学习目标检测模型的性能。

🎯 应用场景

该研究成果可应用于需要持续学习目标检测模型的场景,例如智能监控、自动驾驶、机器人导航等。在这些场景中,目标检测模型需要不断学习新的物体类别,同时保持对先前学习类别的识别能力。YOLO LwF可以有效地缓解灾难性遗忘问题,提升模型的泛化能力和鲁棒性。

📄 摘要(原文)

Real-time object detectors like YOLO achieve exceptional performance when trained on large datasets for multiple epochs. However, in real-world scenarios where data arrives incrementally, neural networks suffer from catastrophic forgetting, leading to a loss of previously learned knowledge. To address this, prior research has explored strategies for Class Incremental Learning (CIL) in Continual Learning for Object Detection (CLOD), with most approaches focusing on two-stage object detectors. However, existing work suggests that Learning without Forgetting (LwF) may be ineffective for one-stage anchor-free detectors like YOLO due to noisy regression outputs, which risk transferring corrupted knowledge. In this work, we introduce YOLO LwF, a self-distillation approach tailored for YOLO-based continual object detection. We demonstrate that when coupled with a replay memory, YOLO LwF significantly mitigates forgetting. Compared to previous approaches, it achieves state-of-the-art performance, improving mAP by +2.1% and +2.9% on the VOC and COCO benchmarks, respectively.