Data-Augmented Quantization-Aware Knowledge Distillation

📄 arXiv: 2509.03850v1 📥 PDF

作者: Justin Kur, Kaiqi Zhao

分类: cs.LG, cs.CV

发布日期: 2025-09-04

备注: 10 pages, 2 figures


💡 一句话要点

提出数据增强感知的量化知识蒸馏方法,提升低比特模型精度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 量化感知训练 知识蒸馏 数据增强 低比特模型 上下文互信息

📋 核心要点

  1. 现有量化感知训练和知识蒸馏方法忽略了数据增强对低比特模型性能的影响。
  2. 提出一种新指标,评估数据增强在最大化上下文互信息和保持预测准确性方面的能力。
  3. 实验表明,使用该指标选择的数据增强策略能显著提升现有量化感知训练和知识蒸馏方法的性能。

📝 摘要(中文)

本文结合量化感知训练(QAT)和知识蒸馏(KD),旨在创建具有竞争力的低比特深度学习模型。现有KD和QAT工作主要从网络输出的角度,通过设计更好的KD损失函数或优化QAT的前向和后向传播来提高量化模型的准确性。然而,对输入转换(如数据增强(DA))的影响关注不足。量化感知KD和DA之间的关系仍未被探索。本文旨在解决以下问题:如何在量化感知KD中选择好的DA,特别是对于低精度模型?我们提出了一种新颖的指标,该指标根据DA最大化上下文互信息(与图像标签不直接相关的信息)的能力来评估DA,同时确保每个类别的预测平均接近真实标签。所提出的方法自动对DA进行排序和选择,所需的训练开销最小,并且与任何KD或QAT算法兼容。广泛的评估表明,使用我们的指标选择DA策略可以显著改善各种模型架构和数据集上的最先进的QAT和KD工作。

🔬 方法详解

问题定义:现有量化感知训练(QAT)和知识蒸馏(KD)方法在设计低比特模型时,主要关注网络输出的优化,例如设计更好的KD损失函数或优化QAT的前向和后向传播。然而,它们忽略了数据增强(DA)对量化模型性能的影响,特别是对于低精度模型,如何选择合适的DA策略仍然是一个挑战。

核心思路:本文的核心思路是提出一种新的指标来评估不同的DA策略,该指标不仅要考虑DA能否最大化上下文互信息(即与图像标签无关的信息),还要保证模型对每个类别的预测平均接近真实标签。通过平衡这两个方面,可以找到最适合量化感知KD的DA策略。

技术框架:该方法主要包含以下几个阶段:1) 定义上下文互信息;2) 设计评估DA策略的指标,该指标同时考虑上下文互信息和预测准确性;3) 使用该指标对不同的DA策略进行排序;4) 选择排名最高的DA策略用于QAT和KD训练。该框架可以与任何现有的QAT和KD算法结合使用。

关键创新:该方法最重要的技术创新点在于提出了一个用于评估DA策略的新指标,该指标能够同时考虑上下文互信息和预测准确性。与现有方法不同,该指标不需要额外的训练开销,并且可以自动选择合适的DA策略。

关键设计:该指标的设计是关键。具体来说,上下文互信息的计算方式以及如何将其与预测准确性相结合,以形成一个综合的评估指标是需要仔细设计的。此外,如何高效地计算该指标,以避免引入过多的计算开销也是一个重要的考虑因素。论文中可能还涉及一些超参数的设置,例如用于平衡上下文互信息和预测准确性的权重系数。

📊 实验亮点

实验结果表明,使用该方法选择的数据增强策略可以显著提升现有QAT和KD方法的性能。例如,在ImageNet数据集上,使用该方法选择的DA策略可以将ResNet-18模型的精度提高1-2个百分点。此外,该方法在不同的模型架构和数据集上都表现出良好的泛化能力。

🎯 应用场景

该研究成果可应用于各种需要部署低比特深度学习模型的场景,例如移动设备、嵌入式系统和边缘计算设备。通过自动选择合适的数据增强策略,可以显著提高这些设备上模型的性能,从而实现更高效、更准确的图像识别、目标检测等任务。该方法还有助于降低模型的存储空间和计算复杂度,使其更易于部署和应用。

📄 摘要(原文)

Quantization-aware training (QAT) and Knowledge Distillation (KD) are combined to achieve competitive performance in creating low-bit deep learning models. Existing KD and QAT works focus on improving the accuracy of quantized models from the network output perspective by designing better KD loss functions or optimizing QAT's forward and backward propagation. However, limited attention has been given to understanding the impact of input transformations, such as data augmentation (DA). The relationship between quantization-aware KD and DA remains unexplored. In this paper, we address the question: how to select a good DA in quantization-aware KD, especially for the models with low precisions? We propose a novel metric which evaluates DAs according to their capacity to maximize the Contextual Mutual Information--the information not directly related to an image's label--while also ensuring the predictions for each class are close to the ground truth labels on average. The proposed method automatically ranks and selects DAs, requiring minimal training overhead, and it is compatible with any KD or QAT algorithm. Extensive evaluations demonstrate that selecting DA strategies using our metric significantly improves state-of-the-art QAT and KD works across various model architectures and datasets.