Heterogeneous Complementary Distillation
作者: Liuchi Xu, Hao Zheng, Lu Wang, Lisheng Xu, Jun Cheng
分类: cs.CV
发布日期: 2025-11-14
备注: Accepted by AAAI2026
💡 一句话要点
提出异构互补蒸馏(HCD)框架,有效解决ViT到ResNet等异构架构间的知识迁移问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 知识蒸馏 异构架构 互补特征 模型压缩 深度学习
📋 核心要点
- 异构架构的知识蒸馏面临空间特征表示差异的挑战,现有方法计算成本高或过度依赖logit对齐。
- HCD框架通过互补特征映射器(CFM)融合教师和学生特征,并引入子logit解耦蒸馏(SDD)和正交性损失(OL)。
- 实验表明,HCD在CIFAR-100、CUB200和ImageNet-1K等数据集上优于现有知识蒸馏方法,提升了学生模型的性能。
📝 摘要(中文)
知识蒸馏(KD)旨在将复杂教师模型的“暗知识”迁移到紧凑的学生模型。然而,诸如Vision Transformer (ViT)到ResNet18等异构架构蒸馏,由于空间特征表示的差异而面临挑战。传统的KD方法主要为同构架构设计,难以有效解决这种差异。虽然最近开发了一些异构KD方法来解决这些问题,但它们通常会产生高计算成本和复杂的设计,或者过度依赖logit对齐,限制了它们利用互补特征的能力。为了克服这些限制,我们提出了异构互补蒸馏(HCD),这是一个简单而有效的框架,它集成了互补的教师和学生特征,以对齐共享logits中的表示。这些logits被分解和约束,以促进向学生的多样化知识转移。具体来说,HCD通过卷积投影器和自适应池化处理学生的中间特征,将它们与教师倒数第二层的特征连接起来,然后通过互补特征映射器(CFM)模块(包括全连接层)映射它们,以产生共享logits。我们进一步引入了子logit解耦蒸馏(SDD),它将共享logits划分为n个子logits,这些子logits与教师的logits融合以纠正分类。为了确保子logit的多样性并减少冗余知识转移,我们提出了一种正交性损失(OL)。通过保留学生特定的优势并利用教师知识,HCD增强了学生的鲁棒性和泛化能力。在CIFAR-100、细粒度(例如,CUB200)和ImageNet-1K数据集上的大量实验表明,HCD优于最先进的KD方法,使其成为异构KD的有效解决方案。
🔬 方法详解
问题定义:论文旨在解决异构架构(例如ViT到ResNet)之间的知识蒸馏问题。现有方法要么计算成本过高,要么过度依赖logit对齐,无法充分利用教师和学生模型之间的互补特征,导致知识迁移效率低下。
核心思路:论文的核心思路是利用教师和学生模型之间的互补特征,通过共享logits的方式进行知识迁移。通过设计互补特征映射器(CFM)模块,将学生模型的中间特征与教师模型的特征进行融合,从而在共享logits中对齐表示。同时,引入子logit解耦蒸馏(SDD)和正交性损失(OL)来保证知识的多样性和减少冗余。
技术框架:HCD框架主要包含以下几个模块:1) 学生模型中间特征提取模块:使用卷积投影器和自适应池化处理学生模型的中间特征。2) 互补特征映射器(CFM):将学生模型的处理后的特征与教师模型的倒数第二层特征进行拼接,并通过全连接层映射到共享logits。3) 子logit解耦蒸馏(SDD):将共享logits划分为n个子logits,并与教师模型的logits融合进行分类。4) 正交性损失(OL):用于保证子logits之间的多样性,减少冗余知识的传递。
关键创新:论文的关键创新在于提出了异构互补蒸馏(HCD)框架,该框架能够有效地利用教师和学生模型之间的互补特征进行知识迁移。通过互补特征映射器(CFM)模块,实现了异构特征的对齐和融合。同时,子logit解耦蒸馏(SDD)和正交性损失(OL)的引入,进一步提升了知识迁移的效率和效果。
关键设计:1) 互补特征映射器(CFM)采用全连接层进行特征映射,将学生和教师的特征融合到共享logits空间。2) 子logit解耦蒸馏(SDD)将共享logits划分为n个子logits,每个子logit对应不同的知识表示。3) 正交性损失(OL)通过约束子logits之间的正交性,保证知识的多样性,减少冗余知识的传递。具体实现上,正交性损失计算子logits之间的余弦相似度,并最小化该相似度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HCD在CIFAR-100、CUB200和ImageNet-1K等数据集上均优于现有的知识蒸馏方法。例如,在ImageNet-1K数据集上,使用ResNet18作为学生模型,HCD相比于其他方法取得了显著的性能提升,验证了其在异构知识蒸馏方面的有效性。
🎯 应用场景
该研究成果可广泛应用于模型压缩和加速领域,尤其是在资源受限的设备上部署高性能模型。例如,可以将大型Transformer模型蒸馏到小型CNN模型,从而在移动设备或嵌入式系统中实现高效的图像识别或目标检测。此外,该方法还可以用于提升模型的鲁棒性和泛化能力。
📄 摘要(原文)
Knowledge distillation (KD)transfers the dark knowledge from a complex teacher to a compact student. However, heterogeneous architecture distillation, such as Vision Transformer (ViT) to ResNet18, faces challenges due to differences in spatial feature representations.Traditional KD methods are mostly designed for homogeneous architectures and hence struggle to effectively address the disparity. Although heterogeneous KD approaches have been developed recently to solve these issues, they often incur high computational costs and complex designs, or overly rely on logit alignment, which limits their ability to leverage the complementary features. To overcome these limitations, we propose Heterogeneous Complementary Distillation (HCD),a simple yet effective framework that integrates complementary teacher and student features to align representations in shared logits.These logits are decomposed and constrained to facilitate diverse knowledge transfer to the student. Specifically, HCD processes the student's intermediate features through convolutional projector and adaptive pooling, concatenates them with teacher's feature from the penultimate layer and then maps them via the Complementary Feature Mapper (CFM) module, comprising fully connected layer,to produce shared logits.We further introduce Sub-logit Decoupled Distillation (SDD) that partitions the shared logits into n sub-logits, which are fused with teacher's logits to rectify classification.To ensure sub-logit diversity and reduce redundant knowledge transfer, we propose an Orthogonality Loss (OL).By preserving student-specific strengths and leveraging teacher knowledge,HCD enhances robustness and generalization in students.Extensive experiments on the CIFAR-100, Fine-grained (e.g., CUB200)and ImageNet-1K datasets demonstrate that HCD outperforms state-of-the-art KD methods,establishing it as an effective solution for heterogeneous KD.