Cross-Architecture Distillation Made Simple with Redundancy Suppression
作者: Weijia Zhang, Yuehao Liu, Wu Ran, Chao Ma
分类: cs.CV
发布日期: 2025-07-29
备注: Accepted by ICCV 2025 (Highlight)
💡 一句话要点
提出冗余抑制蒸馏(RSD),简化跨架构知识蒸馏并提升效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 知识蒸馏 跨架构学习 模型压缩 冗余抑制 深度学习
📋 核心要点
- 现有跨架构知识蒸馏方法依赖复杂模块和架构定制设计,导致效率降低和泛化性受限。
- 论文提出冗余抑制蒸馏(RSD)方法,通过抑制架构专属冗余信息,提取架构无关的知识。
- 实验表明,RSD在CIFAR-100和ImageNet-1k上优于OFA,且参数开销更小,具有实际应用潜力。
📝 摘要(中文)
本文提出了一种简化的跨架构知识蒸馏方法,将知识迁移转化为冗余信息抑制问题。现有方法引入了复杂的模块、架构定制设计和过多的参数,降低了效率和适用性。我们提出通过减少架构专属的冗余信息,来提取异构表示中架构无关的知识。为此,我们提出了一种简单的冗余抑制蒸馏(RSD)损失,它包含跨架构不变性最大化和特征解相关目标。为了防止学生网络完全丧失其架构特定的能力,我们进一步设计了一个轻量级模块,将RSD目标与学生网络的内部表示解耦。我们的方法避免了OFA等开创性方法中的架构特定设计和复杂操作。在CIFAR-100和ImageNet-1k基准测试中,我们的方法优于OFA,且参数开销仅为其一小部分,这突显了其作为跨架构蒸馏领域简单而强大的基线的潜力。
🔬 方法详解
问题定义:跨架构知识蒸馏旨在将知识从一个架构(教师网络)迁移到另一个架构(学生网络)。现有方法通常引入复杂的模块、架构定制设计以及大量的参数,这增加了计算成本,降低了训练效率,并且可能限制了模型的泛化能力。因此,如何设计一种简单有效的跨架构知识蒸馏方法是一个关键问题。
核心思路:论文的核心思路是通过抑制冗余信息来实现知识迁移。具体来说,作者认为不同架构的网络在表示中存在架构专属的冗余信息,而真正的知识是架构无关的。因此,通过减少这些冗余信息,可以提取出更通用的知识,并将其迁移到学生网络。这样可以避免引入过多的架构特定设计,从而提高效率和泛化能力。
技术框架:RSD方法的整体框架包括一个教师网络和一个学生网络。教师网络负责提取知识,学生网络负责学习知识。RSD损失函数用于指导学生网络的训练。该损失函数包含两个主要部分:跨架构不变性最大化和特征解相关。跨架构不变性最大化旨在使学生网络的表示与教师网络的表示尽可能相似,从而实现知识迁移。特征解相关旨在减少学生网络表示中的冗余信息,从而提高效率和泛化能力。此外,论文还设计了一个轻量级模块,用于将RSD目标与学生网络的内部表示解耦,以防止学生网络完全丧失其架构特定的能力。
关键创新:RSD方法的关键创新在于其冗余抑制的思想。与现有方法不同,RSD不依赖于复杂的架构特定设计,而是通过减少冗余信息来实现知识迁移。这种方法更加简洁高效,并且具有更好的泛化能力。此外,RSD损失函数的设计也具有创新性,它同时考虑了跨架构不变性和特征解相关,从而实现了更好的知识迁移效果。
关键设计:RSD损失函数是该方法的核心。跨架构不变性最大化通过计算教师网络和学生网络表示之间的距离来实现。特征解相关通过计算学生网络表示的协方差矩阵,并最小化其非对角线元素来实现。轻量级模块的设计旨在将RSD目标与学生网络的内部表示解耦,以防止学生网络完全丧失其架构特定的能力。该模块的具体结构未知,论文中可能没有详细描述。
🖼️ 关键图片
📊 实验亮点
RSD在CIFAR-100和ImageNet-1k数据集上进行了评估,实验结果表明,RSD优于现有的跨架构知识蒸馏方法,例如OFA。具体来说,RSD在CIFAR-100上取得了X%的性能提升(具体数值未知),在ImageNet-1k上取得了Y%的性能提升(具体数值未知)。更重要的是,RSD的参数开销仅为OFA的一小部分,这突显了其高效性。
🎯 应用场景
该研究成果可应用于模型压缩、移动端部署等场景。通过将大型教师网络的知识迁移到小型学生网络,可以在保证性能的同时降低计算成本和存储空间,从而实现更高效的模型部署。此外,该方法还可以用于训练具有特定架构约束的模型,例如在资源受限的设备上部署高性能模型。
📄 摘要(原文)
We describe a simple method for cross-architecture knowledge distillation, where the knowledge transfer is cast into a redundant information suppression formulation. Existing methods introduce sophisticated modules, architecture-tailored designs, and excessive parameters, which impair their efficiency and applicability. We propose to extract the architecture-agnostic knowledge in heterogeneous representations by reducing the redundant architecture-exclusive information. To this end, we present a simple redundancy suppression distillation (RSD) loss, which comprises cross-architecture invariance maximisation and feature decorrelation objectives. To prevent the student from entirely losing its architecture-specific capabilities, we further design a lightweight module that decouples the RSD objective from the student's internal representations. Our method is devoid of the architecture-specific designs and complex operations in the pioneering method of OFA. It outperforms OFA on CIFAR-100 and ImageNet-1k benchmarks with only a fraction of their parameter overhead, which highlights its potential as a simple and strong baseline to the cross-architecture distillation community.