Powerful Teachers Matter: Text-Guided Multi-view Knowledge Distillation with Visual Prior Enhancement

📄 arXiv: 2603.24208v1 📥 PDF

作者: Xin Zhang, Jianyang Xu, Hao Peng, Dongjing Wang, Jingyuan Zheng, Yu Li, Yuyu Yin, Hongbo Wang

分类: cs.CV, cs.AI

发布日期: 2026-03-25

备注: 9 pages, 6 figures


💡 一句话要点

提出文本引导的多视角知识蒸馏,提升视觉教师知识质量

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 多模态学习 视觉先验 文本引导 模型压缩

📋 核心要点

  1. 现有知识蒸馏方法侧重蒸馏策略,忽略了提升教师模型知识质量的重要性,限制了学生模型的性能。
  2. TMKD利用双模态教师(视觉和文本),并结合视觉先验和文本提示,增强教师模型的知识表达能力。
  3. 实验结果表明,TMKD在多个数据集上显著提升了知识蒸馏的性能,验证了其有效性。

📝 摘要(中文)

知识蒸馏旨在将大型教师模型的知识迁移到小型学生模型,以实现高效推理。现有方法主要关注蒸馏策略,却往往忽略了提升教师知识质量的重要性。本文提出了文本引导的多视角知识蒸馏(TMKD),利用双模态教师——视觉教师和文本教师(CLIP)来提供更丰富的监督信号。具体而言,我们通过结合视觉先验(边缘和高频特征)的多视角输入来增强视觉教师,而文本教师则通过先验感知的提示生成语义权重,以指导自适应特征融合。此外,我们引入了视觉-语言对比正则化来加强学生模型中的语义知识。在五个基准数据集上的大量实验表明,TMKD始终如一地提高了知识蒸馏性能,最高提升达4.49%,验证了我们的双教师多视角增强策略的有效性。

🔬 方法详解

问题定义:现有知识蒸馏方法通常只关注如何设计更好的蒸馏策略,而忽略了教师模型本身知识质量的重要性。如果教师模型提供的知识不够丰富或者不够准确,那么学生模型也很难学到好的表示。因此,如何提升教师模型的知识质量是一个关键问题。

核心思路:本文的核心思路是利用双模态教师(视觉和文本)来提供更丰富的监督信号,并结合视觉先验和文本提示来增强教师模型的知识表达能力。通过多视角输入增强视觉教师,利用文本教师生成语义权重指导特征融合,从而提升教师模型的知识质量。

技术框架:TMKD包含一个视觉教师、一个文本教师(CLIP)和一个学生模型。视觉教师接收多视角输入(包括原始图像、边缘图和高频特征),文本教师通过先验感知的提示生成语义权重。然后,利用这些信息指导学生模型的训练。此外,还引入了视觉-语言对比正则化来加强学生模型中的语义知识。整体流程如下:首先,对输入图像进行多视角处理,得到原始图像、边缘图和高频特征。然后,将这些输入分别输入到视觉教师中,得到相应的特征表示。同时,利用文本教师生成语义权重。最后,利用这些信息指导学生模型的训练,并使用视觉-语言对比正则化来加强学生模型中的语义知识。

关键创新:TMKD的关键创新在于以下几点:1) 提出了双模态教师(视觉和文本)的知识蒸馏框架,可以提供更丰富的监督信号。2) 利用多视角输入和文本提示来增强教师模型的知识表达能力。3) 引入了视觉-语言对比正则化来加强学生模型中的语义知识。与现有方法的本质区别在于,TMKD更加关注如何提升教师模型的知识质量,而不是仅仅关注如何设计更好的蒸馏策略。

关键设计:在多视角输入方面,使用了边缘图和高频特征来增强视觉教师对图像细节的感知能力。在文本提示方面,设计了先验感知的提示,可以更好地利用文本教师的语义信息。在损失函数方面,使用了知识蒸馏损失和视觉-语言对比损失,以保证学生模型能够学到教师模型的知识,并具有良好的语义表示能力。具体的参数设置和网络结构细节可以在论文的实验部分找到。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TMKD在五个基准数据集上都取得了显著的性能提升。例如,在ImageNet数据集上,TMKD的性能提升高达4.49%。此外,TMKD还优于其他知识蒸馏方法,证明了其有效性。这些结果表明,通过提升教师模型的知识质量,可以显著提高知识蒸馏的性能。

🎯 应用场景

该研究成果可应用于图像分类、目标检测、图像分割等计算机视觉任务中,尤其适用于资源受限的场景,例如移动设备或嵌入式系统。通过知识蒸馏,可以将大型模型部署到这些设备上,从而提高模型的推理效率和降低计算成本。此外,该方法还可以应用于其他模态的数据,例如语音和文本,具有广泛的应用前景。

📄 摘要(原文)

Knowledge distillation transfers knowledge from large teacher models to smaller students for efficient inference. While existing methods primarily focus on distillation strategies, they often overlook the importance of enhancing teacher knowledge quality. In this paper, we propose Text-guided Multi-view Knowledge Distillation (TMKD), which leverages dual-modality teachers, a visual teacher and a text teacher (CLIP), to provide richer supervisory signals. Specifically, we enhance the visual teacher with multi-view inputs incorporating visual priors (edge and high-frequency features), while the text teacher generates semantic weights through prior-aware prompts to guide adaptive feature fusion. Additionally, we introduce vision-language contrastive regularization to strengthen semantic knowledge in the student model. Extensive experiments on five benchmarks demonstrate that TMKD consistently improves knowledge distillation performance by up to 4.49\%, validating the effectiveness of our dual-teacher multi-view enhancement strategy. Code is available at https://anonymous.4open.science/r/TMKD-main-44D1.