Learnable Instance Attention Filtering for Adaptive Detector Distillation

📄 arXiv: 2603.26088v1 📥 PDF

作者: Chen Liu, Qizhen Lan, Zhicheng Ding, Xinyu Chu, Qing Tian

分类: cs.CV

发布日期: 2026-03-27


💡 一句话要点

提出LIAF-KD,通过可学习的实例注意力过滤实现自适应目标检测器蒸馏

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 目标检测 实例注意力 自适应学习 模型压缩

📋 核心要点

  1. 现有基于特征的知识蒸馏方法忽略了实例级别的差异,对所有实例采用统一处理方式。
  2. LIAF-KD引入可学习的实例选择器,动态评估和调整实例重要性,实现自适应蒸馏。
  3. 实验表明,LIAF-KD在KITTI和COCO数据集上均有提升,且未增加模型复杂度。

📝 摘要(中文)

随着深度视觉模型为追求更高性能而变得日益复杂,部署效率已成为一个关键问题。知识蒸馏(KD)通过将知识从大型教师模型转移到紧凑的学生模型来缓解这个问题。虽然许多基于特征的KD方法依赖于空间过滤来指导蒸馏,但它们通常统一对待所有对象实例,忽略了实例级别的可变性。此外,现有的注意力过滤机制通常是启发式的或教师驱动的,而不是与学生一起学习的。为了解决这些限制,我们提出了一种用于自适应检测器蒸馏的可学习实例注意力过滤(LIAF-KD),这是一个新颖的框架,它引入了可学习的实例选择器,以在蒸馏过程中动态评估和重新加权实例的重要性。值得注意的是,学生根据其不断发展的学习状态为这个过程做出贡献。在KITTI和COCO数据集上的实验表明,该方法取得了持续的改进,在没有增加复杂性的情况下,GFL ResNet-50学生模型获得了2%的增益,优于最先进的方法。

🔬 方法详解

问题定义:现有基于特征的知识蒸馏方法在目标检测任务中,通常采用空间注意力机制来指导学生模型学习教师模型的特征。然而,这些方法通常忽略了不同实例之间的差异性,对所有实例采用相同的处理方式,导致蒸馏效果受限。此外,现有的注意力过滤机制通常是启发式的或由教师模型驱动的,无法充分利用学生模型的学习状态。

核心思路:LIAF-KD的核心思路是引入可学习的实例选择器,根据学生模型的学习状态,动态地评估和调整每个实例的重要性。通过这种方式,学生模型可以更加关注对自身学习更有帮助的实例,从而提高蒸馏效率和性能。

技术框架:LIAF-KD框架主要包含以下几个模块:1) 特征提取模块:分别提取教师模型和学生模型的特征;2) 实例选择模块:基于学生模型的特征,学习每个实例的重要性权重;3) 注意力过滤模块:根据实例权重,对教师模型的特征进行加权,得到过滤后的特征;4) 知识迁移模块:将过滤后的教师模型特征迁移到学生模型。

关键创新:LIAF-KD的关键创新在于引入了可学习的实例选择器,该选择器能够根据学生模型的学习状态,动态地评估和调整每个实例的重要性。与传统的启发式或教师驱动的注意力过滤机制相比,LIAF-KD能够更好地适应学生模型的学习过程,从而提高蒸馏效率和性能。此外,该方法在蒸馏过程中,学生模型也参与了实例重要性的评估,使得蒸馏过程更加自适应。

关键设计:实例选择器通常由一个小型神经网络构成,输入为学生模型的特征,输出为每个实例的权重。损失函数的设计需要考虑学生模型和教师模型之间的特征差异,以及实例权重对学生模型学习的影响。例如,可以使用KL散度来衡量学生模型和教师模型之间的特征分布差异,并使用交叉熵损失来优化实例选择器的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LIAF-KD在KITTI和COCO数据集上进行了实验验证。在GFL ResNet-50学生模型上,LIAF-KD在没有增加模型复杂度的前提下,获得了2%的性能提升,超过了当前最先进的知识蒸馏方法。实验结果表明,LIAF-KD能够有效地提高目标检测模型的蒸馏效率和性能。

🎯 应用场景

LIAF-KD可应用于各种目标检测模型的知识蒸馏,尤其适用于将大型、复杂的教师模型迁移到小型、轻量级的学生模型,从而在资源受限的设备上实现高效的目标检测。该方法在自动驾驶、智能监控、移动设备等领域具有广泛的应用前景,有助于提升模型部署效率和降低计算成本。

📄 摘要(原文)

As deep vision models grow increasingly complex to achieve higher performance, deployment efficiency has become a critical concern. Knowledge distillation (KD) mitigates this issue by transferring knowledge from large teacher models to compact student models. While many feature-based KD methods rely on spatial filtering to guide distillation, they typically treat all object instances uniformly, ignoring instance-level variability. Moreover, existing attention filtering mechanisms are typically heuristic or teacher-driven, rather than learned with the student. To address these limitations, we propose Learnable Instance Attention Filtering for Adaptive Detector Distillation (LIAF-KD), a novel framework that introduces learnable instance selectors to dynamically evaluate and reweight instance importance during distillation. Notably, the student contributes to this process based on its evolving learning state. Experiments on the KITTI and COCO datasets demonstrate consistent improvements, with a 2% gain on a GFL ResNet-50 student without added complexity, outperforming state-of-the-art methods.