SAMKD: Spatial-aware Adaptive Masking Knowledge Distillation for Object Detection
作者: Zhourui Zhang, Jun Li, Jiayan Li, Jianhua Xu
分类: cs.CV
发布日期: 2025-01-13 (更新: 2025-03-24)
💡 一句话要点
提出空间感知自适应掩码知识蒸馏(SAMKD)框架,提升目标检测性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 目标检测 知识蒸馏 特征掩码 空间感知 自适应学习 深度学习 模型压缩
📋 核心要点
- 现有注意力引导的特征掩码蒸馏方法缺乏对细粒度局部信息的挖掘,限制了学生模型对细节的学习。
- 提出空间感知自适应掩码知识蒸馏(SAMKD)框架,通过空间分层特征掩码蒸馏和掩码logit蒸馏,实现由粗到精的知识迁移。
- 实验结果表明,SAMKD显著提升了学生模型的检测性能,例如在使用FCOS和ResNet101时,mAP从35.3%提升至38.8%。
📝 摘要(中文)
本文提出了一种用于精确目标检测的空间感知自适应掩码知识蒸馏(SAMKD)框架。与以往主要通过全局教师注意力图进行知识迁移的特征掩码蒸馏方法不同,本文方法深入研究细粒度的线索。通过在更精细的粒度上执行蒸馏,有利于发现补充全局知识迁移的局部细节,并重建全面的学生特征。本文开发了空间分层特征掩码蒸馏方案,从而在由粗到精的蒸馏过程中编码目标感知的局部性,以改进特征重建。此外,空间感知特征蒸馏策略与掩码logit蒸馏方案相结合,其中教师和学生网络之间特定区域的特征差异被用于自适应地指导蒸馏过程。因此,它可以帮助学生模型更好地从教师模型中学习,从而改进知识迁移并缩小差距。大量的检测任务实验证明了该方法的优越性。例如,当使用FCOS作为教师检测器,ResNet101作为骨干网络时,该方法将学生网络的mAP从35.3%提高到38.8%,优于包括MGD、FreeKD和DMKD在内的最先进的蒸馏方法。
🔬 方法详解
问题定义:现有的知识蒸馏方法在目标检测任务中,主要依赖全局注意力图进行特征掩码蒸馏,忽略了图像中细粒度的局部信息。这种方式限制了学生模型学习局部细节的能力,阻碍了其性能的进一步提升。因此,如何有效地利用局部信息进行知识迁移是本文要解决的核心问题。
核心思路:本文的核心思路是通过空间感知的方式,自适应地对特征进行掩码,从而引导学生模型学习教师模型中更精细的局部信息。具体来说,通过空间分层特征掩码蒸馏,从粗到精地编码目标感知的局部性,并结合掩码logit蒸馏,利用教师和学生网络之间特定区域的特征差异,自适应地指导蒸馏过程。
技术框架:SAMKD框架主要包含两个关键模块:空间分层特征掩码蒸馏和掩码logit蒸馏。空间分层特征掩码蒸馏通过多尺度的特征掩码,逐步提取目标的局部信息。掩码logit蒸馏则利用教师和学生网络在特定区域的特征差异,动态调整蒸馏的权重,从而实现更有效的知识迁移。整体流程是从教师模型提取特征和logit,然后通过这两个模块指导学生模型的训练。
关键创新:SAMKD的关键创新在于其空间感知和自适应的掩码策略。与传统的全局注意力掩码方法不同,SAMKD能够根据目标的空间位置和特征差异,自适应地调整掩码的形状和大小,从而更精确地提取和迁移局部信息。此外,空间分层的蒸馏方式也使得学生模型能够从粗到精地学习目标特征。
关键设计:在空间分层特征掩码蒸馏中,使用了不同尺度的特征图进行掩码,以捕捉不同层次的局部信息。掩码logit蒸馏中,使用了KL散度损失函数来衡量教师和学生网络在特定区域的logit差异,并根据差异的大小动态调整蒸馏的权重。具体的网络结构和参数设置根据不同的检测器和骨干网络进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SAMKD框架在COCO数据集上取得了显著的性能提升。例如,当使用FCOS作为教师检测器,ResNet101作为骨干网络时,SAMKD将学生网络的mAP从35.3%提高到38.8%,超过了MGD、FreeKD和DMKD等先进的知识蒸馏方法。这表明SAMKD能够有效地迁移教师模型的知识,并提升学生模型的检测精度。
🎯 应用场景
SAMKD框架可应用于各种目标检测任务,尤其是在需要高精度检测的场景中,例如自动驾驶、智能监控、医学图像分析等。通过知识蒸馏,可以将大型、复杂的教师模型中的知识迁移到小型、轻量级的学生模型中,从而在资源受限的设备上实现高性能的目标检测。该方法还有潜力扩展到其他计算机视觉任务,如图像分割和目标跟踪。
📄 摘要(原文)
Most of recent attention-guided feature masking distillation methods perform knowledge transfer via global teacher attention maps without delving into fine-grained clues. Instead, performing distillation at finer granularity is conducive to uncovering local details supplementary to global knowledge transfer and reconstructing comprehensive student features. In this study, we propose a Spatial-aware Adaptive Masking Knowledge Distillation (SAMKD) framework for accurate object detection. Different from previous feature distillation methods which mainly perform single-scale feature masking, we develop spatially hierarchical feature masking distillation scheme, such that the object-aware locality is encoded during coarse-to-fine distillation process for improved feature reconstruction. In addition, our spatial-aware feature distillation strategy is combined with a masking logit distillation scheme in which region-specific feature difference between teacher and student networks is utilized to adaptively guide the distillation process. Thus, it can help the student model to better learn from the teacher counterpart with improved knowledge transfer and reduced gap. Extensive experiments for detection task demonstrate the superiority of our method. For example, when FCOS is used as teacher detector with ResNet101 backbone, our method improves the student network from 35.3\% to 38.8\% mAP, outperforming state-of-the-art distillation methods including MGD, FreeKD and DMKD.