Local Dense Logit Relations for Enhanced Knowledge Distillation
作者: Liuchi Xu, Kang Liu, Jinshuai Liu, Lu Wang, Lisheng Xu, Jun Cheng
分类: cs.CV
发布日期: 2025-07-21
备注: Accepted by ICCV2025
💡 一句话要点
提出局部密集关系Logit蒸馏(LDRLD),通过细粒度logit关系提升知识蒸馏效果。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 知识蒸馏 模型压缩 Logit蒸馏 细粒度关系 自适应权重
📋 核心要点
- 现有logit蒸馏方法缺乏对logit知识中细粒度关系的深入挖掘,限制了学生模型的学习效果。
- LDRLD通过递归解耦和重组logit信息,捕获类间关系,并利用自适应衰减权重策略优化关键类别对的权重。
- 实验表明,LDRLD在CIFAR-100、ImageNet-1K和Tiny-ImageNet等数据集上优于现有logit蒸馏方法。
📝 摘要(中文)
本文提出了一种新颖的局部密集关系Logit蒸馏(LDRLD)方法,旨在更深入地挖掘logit知识中的细粒度关系。该方法通过递归地解耦和重组logit信息来捕获类间关系,从而为学生模型的学习提供更详细和清晰的指导。为了进一步优化性能,我们引入了一种自适应衰减权重(ADW)策略,该策略使用逆秩加权(IRW)和指数秩衰减(ERD)动态调整关键类别对的权重。具体而言,IRW分配与类别对之间秩差异成反比的权重,而ERD基于类别对的总排序分数自适应地控制权重衰减。此外,在递归解耦后,我们蒸馏剩余的非目标知识,以确保知识的完整性并提高性能。最终,我们的方法通过传递细粒度知识并强调最关键的关系来提高学生模型的性能。在CIFAR-100、ImageNet-1K和Tiny-ImageNet等数据集上的大量实验表明,我们的方法与最先进的基于logit的蒸馏方法相比具有优势。代码将会公开。
🔬 方法详解
问题定义:现有知识蒸馏方法,特别是基于logit的蒸馏方法,未能充分利用logit输出中蕴含的细粒度关系信息。它们通常只关注logit值的绝对大小,而忽略了不同类别之间的相对关系,导致学生模型无法充分学习到教师模型的知识。
核心思路:LDRLD的核心思路是通过递归地解耦和重组logit信息,显式地建模类别之间的关系。通过这种方式,可以提取出更细粒度的知识,并将其传递给学生模型。同时,采用自适应权重策略,突出关键类别对的重要性,进一步提升蒸馏效果。
技术框架:LDRLD主要包含以下几个阶段:1) Logit解耦:将教师模型的logit输出进行递归解耦,得到不同层次的类别关系信息。2) 关系重组:将解耦后的信息进行重组,形成局部密集的关系表示。3) 自适应权重调整:使用IRW和ERD策略,动态调整不同类别对的权重。4) 知识蒸馏:将处理后的logit信息传递给学生模型,并利用损失函数进行优化。5) 非目标知识蒸馏:蒸馏剩余的非目标知识,以确保知识的完整性。
关键创新:LDRLD的关键创新在于:1) 提出了递归解耦和重组logit信息的方法,能够有效捕获类别之间的细粒度关系。2) 引入了自适应衰减权重策略,能够动态调整关键类别对的权重,提高蒸馏效率。3) 考虑了非目标知识的蒸馏,保证了知识的完整性。
关键设计:在递归解耦过程中,论文采用了多层解耦策略,以捕获不同层次的类别关系。自适应权重调整策略中,IRW根据类别对之间秩差异的倒数分配权重,而ERD则根据类别对的总排序分数自适应地控制权重衰减。损失函数方面,论文采用了常用的KL散度损失,并结合了自适应权重进行优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LDRLD在CIFAR-100数据集上取得了显著的性能提升,相比于基线方法,准确率提高了多个百分点。在ImageNet-1K和Tiny-ImageNet数据集上,LDRLD也表现出优越的性能,证明了其有效性和泛化能力。这些结果表明,LDRLD能够有效地提取和传递细粒度的知识,从而提高学生模型的性能。
🎯 应用场景
LDRLD方法可广泛应用于模型压缩和知识迁移领域,尤其适用于需要将大型复杂模型迁移到资源受限设备上的场景。例如,可以将高性能的图像分类模型蒸馏到移动设备上,实现高效的本地推理。此外,该方法还可以应用于其他任务,如目标检测、语义分割等,具有广泛的应用前景。
📄 摘要(原文)
State-of-the-art logit distillation methods exhibit versatility, simplicity, and efficiency. Despite the advances, existing studies have yet to delve thoroughly into fine-grained relationships within logit knowledge. In this paper, we propose Local Dense Relational Logit Distillation (LDRLD), a novel method that captures inter-class relationships through recursively decoupling and recombining logit information, thereby providing more detailed and clearer insights for student learning. To further optimize the performance, we introduce an Adaptive Decay Weight (ADW) strategy, which can dynamically adjust the weights for critical category pairs using Inverse Rank Weighting (IRW) and Exponential Rank Decay (ERD). Specifically, IRW assigns weights inversely proportional to the rank differences between pairs, while ERD adaptively controls weight decay based on total ranking scores of category pairs. Furthermore, after the recursive decoupling, we distill the remaining non-target knowledge to ensure knowledge completeness and enhance performance. Ultimately, our method improves the student's performance by transferring fine-grained knowledge and emphasizing the most critical relationships. Extensive experiments on datasets such as CIFAR-100, ImageNet-1K, and Tiny-ImageNet demonstrate that our method compares favorably with state-of-the-art logit-based distillation approaches. The code will be made publicly available.