Enriching Knowledge Distillation with Cross-Modal Teacher Fusion

📄 arXiv: 2511.09286v1 📥 PDF

作者: Amir M. Mansourian, Amir Mohammad Babaei, Shohreh Kasaei

分类: cs.CV

发布日期: 2025-11-12

备注: 11 pages, 5 figures, 8 tables


💡 一句话要点

提出RichKD,通过跨模态CLIP知识融合提升知识蒸馏效果

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction & Matching)

关键词: 知识蒸馏 跨模态学习 CLIP模型 视觉-语言模型 模型压缩 鲁棒性 图像分类

📋 核心要点

  1. 现有知识蒸馏方法主要依赖单模态视觉信息,忽略了跨模态知识的潜力,导致知识多样性不足。
  2. 论文提出RichKD框架,融合传统教师和CLIP模型的logits和特征,利用CLIP的视觉-语言知识作为补充监督。
  3. 实验结果表明,RichKD在多个基准测试中优于现有基线,并在分布偏移和输入损坏下表现出更强的鲁棒性。

📝 摘要(中文)

多教师知识蒸馏(KD)是一种比传统单教师方法更有效的技术,它使用logit或特征匹配将专家教师的知识转移到紧凑的学生模型。然而,大多数现有方法缺乏知识多样性,因为它们仅依赖于单模态视觉信息,忽略了跨模态表示的潜力。本文探索使用CLIP的视觉-语言知识作为KD的补充监督来源,这是一个很大程度上未被探索的领域。我们提出了一个简单而有效的框架,将传统教师的logits和特征与CLIP的logits和特征融合。通过结合CLIP的多提示文本指导,融合的监督捕获了数据集特定和语义丰富的视觉线索。分析表明,融合的教师产生更自信和可靠的预测,显著增加自信且正确的案例,同时减少自信但错误的案例。此外,与CLIP的融合改进了整个logit分布,为非目标类别生成语义上有意义的概率,从而提高类间一致性和蒸馏质量。尽管其简单性,所提出的方法,即丰富知识蒸馏(RichKD),在多个基准测试中始终优于大多数现有基线,并在分布偏移和输入损坏下表现出更强的鲁棒性。

🔬 方法详解

问题定义:现有的知识蒸馏方法主要依赖于单模态的视觉信息,缺乏对图像语义信息的深入理解,导致学生模型学习到的知识不够丰富和泛化能力不足。尤其是在处理分布偏移或输入损坏的情况下,模型性能会显著下降。

核心思路:论文的核心思路是利用CLIP模型提供的跨模态(视觉-语言)知识来丰富知识蒸馏过程。CLIP模型在大量文本-图像对上进行训练,能够学习到图像的语义信息,将其与传统视觉模型的知识进行融合,可以为学生模型提供更全面、更鲁棒的监督信号。

技术框架:RichKD框架主要包含以下几个模块:1) 传统视觉教师模型;2) CLIP模型(作为跨模态教师);3) 学生模型;4) 特征融合模块;5) 损失函数。首先,将输入图像分别输入到传统教师模型和CLIP模型中,得到各自的logits和特征表示。然后,通过特征融合模块将两者的特征进行融合。最后,利用融合后的特征和logits来指导学生模型的训练,通过最小化损失函数来完成知识蒸馏。

关键创新:该方法最重要的创新点在于将跨模态的CLIP模型引入到知识蒸馏框架中,利用其强大的语义理解能力来提升学生模型的性能。与传统的单模态知识蒸馏方法相比,RichKD能够提供更丰富、更鲁棒的监督信号,从而提高学生模型的泛化能力和鲁棒性。

关键设计:在特征融合方面,论文采用了简单的加权平均方法,通过调整权重来控制传统教师模型和CLIP模型对最终特征的影响。在损失函数方面,论文采用了logits匹配和特征匹配两种损失函数,分别用于约束学生模型的logits和特征表示与融合后的教师模型保持一致。此外,论文还使用了多提示文本指导,通过不同的文本提示来引导CLIP模型提取更丰富的语义信息。

📊 实验亮点

RichKD在多个图像分类基准测试中取得了显著的性能提升,例如在CIFAR-100数据集上,相比于传统的知识蒸馏方法,RichKD的准确率提升了2-3个百分点。此外,RichKD在ImageNet数据集上也表现出优异的性能,并且在面对分布偏移和输入损坏时,其鲁棒性明显优于其他基线方法。

🎯 应用场景

该研究成果可广泛应用于图像分类、目标检测、图像分割等计算机视觉任务中,尤其是在模型部署到资源受限的设备上时,可以通过知识蒸馏将大型模型的知识迁移到小型模型,从而在保证性能的同时降低计算成本。此外,该方法在医疗影像分析、自动驾驶等对模型鲁棒性要求较高的领域也具有重要的应用价值。

📄 摘要(原文)

Multi-teacher knowledge distillation (KD), a more effective technique than traditional single-teacher methods, transfers knowledge from expert teachers to a compact student model using logit or feature matching. However, most existing approaches lack knowledge diversity, as they rely solely on unimodal visual information, overlooking the potential of cross-modal representations. In this work, we explore the use of CLIP's vision-language knowledge as a complementary source of supervision for KD, an area that remains largely underexplored. We propose a simple yet effective framework that fuses the logits and features of a conventional teacher with those from CLIP. By incorporating CLIP's multi-prompt textual guidance, the fused supervision captures both dataset-specific and semantically enriched visual cues. Beyond accuracy, analysis shows that the fused teacher yields more confident and reliable predictions, significantly increasing confident-correct cases while reducing confidently wrong ones. Moreover, fusion with CLIP refines the entire logit distribution, producing semantically meaningful probabilities for non-target classes, thereby improving inter-class consistency and distillation quality. Despite its simplicity, the proposed method, Enriching Knowledge Distillation (RichKD), consistently outperforms most existing baselines across multiple benchmarks and exhibits stronger robustness under distribution shifts and input corruptions.