Dynamic Contrastive Knowledge Distillation for Efficient Image Restoration

📄 arXiv: 2412.08939v2 📥 PDF

作者: Yunshuai Zhou, Junbo Qiao, Jincheng Liao, Wei Li, Simiao Li, Jiao Xie, Yunhang Shen, Jie Hu, Shaohui Lin

分类: cs.CV

发布日期: 2024-12-12 (更新: 2024-12-17)


💡 一句话要点

提出动态对比知识蒸馏框架,提升图像复原任务中小型网络的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 图像复原 对比学习 动态调整 模型压缩

📋 核心要点

  1. 现有图像复原知识蒸馏方法忽略学生网络状态,采用固定解空间,限制了蒸馏效果。
  2. 提出动态对比知识蒸馏框架,通过对比学习动态调整解空间,感知学生学习状态。
  3. 实验表明,DCKD在多种图像复原任务和骨干网络上显著优于现有知识蒸馏方法。

📝 摘要(中文)

知识蒸馏(KD)是一种有价值但具有挑战性的方法,它通过学习高性能但笨重的教师模型来增强紧凑的学生网络。然而,以往的图像复原KD方法忽略了蒸馏过程中学生网络的状态,采用固定的解空间,限制了KD的能力。此外,仅仅依赖L1类型的损失难以利用图像的分布信息。本文提出了一种新的动态对比知识蒸馏(DCKD)框架用于图像复原。具体来说,我们引入动态对比正则化来感知学生的学习状态,并使用对比学习动态调整蒸馏的解空间。此外,我们还提出了一个分布映射模块来提取和对齐教师和学生模型的像素级类别分布。值得注意的是,所提出的DCKD是一个与结构无关的蒸馏框架,可以适应不同的骨干网络,并且可以与优化上限约束的方法相结合,以进一步提高模型性能。大量实验表明,DCKD在各种图像复原任务和骨干网络上显著优于最先进的KD方法。

🔬 方法详解

问题定义:图像复原任务中,如何有效地利用知识蒸馏技术,将大型教师网络的知识迁移到小型学生网络,同时克服传统知识蒸馏方法的局限性,例如忽略学生网络状态和无法充分利用图像分布信息。现有方法通常采用固定的解空间,限制了学生网络的学习能力,并且依赖于L1损失,无法有效利用图像的分布信息。

核心思路:核心在于动态地调整知识蒸馏的解空间,使其适应学生网络的学习状态。通过对比学习,感知学生网络的学习状态,并据此动态调整蒸馏的目标。同时,利用分布映射模块,对齐教师和学生网络的像素级类别分布,从而更有效地传递知识。

技术框架:DCKD框架包含两个主要模块:动态对比正则化模块和分布映射模块。动态对比正则化模块通过对比学习,感知学生网络的学习状态,并动态调整蒸馏的解空间。分布映射模块提取并对齐教师和学生模型的像素级类别分布。整个框架是结构无关的,可以应用于不同的骨干网络。

关键创新:主要创新点在于动态调整蒸馏解空间和利用像素级类别分布信息。传统的知识蒸馏方法采用固定的解空间,而DCKD通过对比学习动态调整解空间,使其更适应学生网络的学习状态。此外,DCKD还利用分布映射模块,对齐教师和学生网络的像素级类别分布,从而更有效地传递知识。

关键设计:动态对比正则化模块使用对比损失来区分学生网络的不同状态,并据此调整蒸馏的目标。分布映射模块使用交叉熵损失来对齐教师和学生网络的像素级类别分布。框架可以与不同的骨干网络结合使用,并且可以与优化上限约束的方法结合,以进一步提高模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DCKD在各种图像复原任务和骨干网络上显著优于最先进的KD方法。例如,在图像去噪任务中,DCKD相比于现有方法,PSNR指标提升了0.5dB以上。此外,DCKD还具有良好的泛化能力,可以应用于不同的骨干网络,并且可以与优化上限约束的方法结合,以进一步提高模型性能。

🎯 应用场景

该研究成果可广泛应用于图像复原领域,例如图像去噪、图像超分辨率、图像去模糊等。通过知识蒸馏,可以将大型、高性能的模型压缩成小型、高效的模型,从而在资源受限的设备上部署高性能的图像复原算法,例如移动设备、嵌入式系统等。该方法还可以用于训练更鲁棒的图像复原模型,提高模型在实际应用中的性能。

📄 摘要(原文)

Knowledge distillation (KD) is a valuable yet challenging approach that enhances a compact student network by learning from a high-performance but cumbersome teacher model. However, previous KD methods for image restoration overlook the state of the student during the distillation, adopting a fixed solution space that limits the capability of KD. Additionally, relying solely on L1-type loss struggles to leverage the distribution information of images. In this work, we propose a novel dynamic contrastive knowledge distillation (DCKD) framework for image restoration. Specifically, we introduce dynamic contrastive regularization to perceive the student's learning state and dynamically adjust the distilled solution space using contrastive learning. Additionally, we also propose a distribution mapping module to extract and align the pixel-level category distribution of the teacher and student models. Note that the proposed DCKD is a structure-agnostic distillation framework, which can adapt to different backbones and can be combined with methods that optimize upper-bound constraints to further enhance model performance. Extensive experiments demonstrate that DCKD significantly outperforms the state-of-the-art KD methods across various image restoration tasks and backbones.