Crossmodal Knowledge Distillation with WordNet-Relaxed Text Embeddings for Robust Image Classification

📄 arXiv: 2503.24017v1 📥 PDF

作者: Chenqi Guo, Mengshuo Rong, Qianli Feng, Rongfan Feng, Yinglong Ma

分类: cs.CV, cs.LG

发布日期: 2025-03-31


💡 一句话要点

提出基于WordNet松弛文本嵌入的跨模态知识蒸馏框架,提升图像分类鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨模态知识蒸馏 图像分类 WordNet 文本嵌入 标签泄露

📋 核心要点

  1. 现有跨模态知识蒸馏方法直接使用类别标签作为文本输入,忽略了图像深层语义,易导致标签泄露,限制了性能。
  2. 提出一种多教师跨模态知识蒸馏框架,利用CLIP图像嵌入和WordNet松弛文本嵌入,缓解标签泄露,引入更丰富的文本信息。
  3. 实验表明,该方法显著提升了学生模型性能,优于现有方法,并在多个数据集上取得了领先或次优的结果。

📝 摘要(中文)

本文提出了一种多教师跨模态知识蒸馏(KD)框架,旨在利用多模态教师模型增强单模态学生模型。特别地,当教师模型的模态包含学生模型的模态时,可以利用额外的互补信息来改善知识转移。在监督图像分类中,图像数据集通常包含代表高级概念的类别标签,这为结合文本线索进行跨模态KD提供了一个自然途径。然而,这些标签很少能捕捉到真实世界视觉中的更深层语义结构,如果直接用作输入,可能会导致标签泄露,最终限制KD性能。为了解决这些问题,我们提出了一个多教师跨模态KD框架,该框架集成了CLIP图像嵌入和可学习的WordNet松弛文本嵌入,并采用分层损失。通过避免直接使用精确的类名,而是使用语义更丰富的WordNet扩展,我们减轻了标签泄露,并引入了更多样化的文本线索。实验表明,这种策略显著提高了学生模型的性能,而噪声或过于精确的文本嵌入会阻碍蒸馏效率。可解释性分析证实,WordNet松弛提示鼓励更多地依赖视觉特征而不是文本捷径,同时仍然有效地结合了新引入的文本线索。我们的方法在六个公共数据集上取得了最先进或第二好的结果,证明了其在推进跨模态KD方面的有效性。

🔬 方法详解

问题定义:现有的跨模态知识蒸馏方法在图像分类任务中,通常直接使用图像的类别标签作为文本模态的输入。这种做法忽略了图像本身所蕴含的更深层次的语义信息,并且容易导致标签泄露问题,即学生模型可能仅仅学习到标签的对应关系,而忽略了图像本身的特征,从而限制了知识蒸馏的性能。

核心思路:本文的核心思路是利用WordNet来扩展类别标签,生成语义更丰富的文本嵌入,从而缓解标签泄露问题,并引入更多样化的文本信息。同时,结合CLIP的图像嵌入,构建一个多教师的知识蒸馏框架,让学生模型能够同时学习图像和文本模态的知识。通过这种方式,学生模型可以更好地理解图像的语义信息,提高分类的准确性和鲁棒性。

技术框架:该框架包含两个教师模型和一个学生模型。一个教师模型是预训练的CLIP模型,用于提取图像的视觉特征。另一个教师模型是可学习的WordNet-relaxed文本嵌入模型,用于生成语义丰富的文本特征。学生模型是一个传统的图像分类模型。知识蒸馏过程通过分层损失函数来实现,该损失函数包括图像特征的蒸馏损失和文本特征的蒸馏损失。整体流程是:首先,使用CLIP提取图像特征,使用WordNet-relaxed文本嵌入模型生成文本特征;然后,将这些特征作为教师信号,指导学生模型学习;最后,通过分层损失函数优化学生模型。

关键创新:该论文的关键创新在于提出了WordNet-relaxed文本嵌入,它通过利用WordNet的语义关系,对类别标签进行扩展,生成语义更丰富的文本嵌入。与直接使用类别标签作为文本输入的方法相比,WordNet-relaxed文本嵌入能够更好地捕捉图像的语义信息,并缓解标签泄露问题。此外,多教师的知识蒸馏框架也能够更有效地利用图像和文本模态的知识,提高学生模型的性能。

关键设计:WordNet-relaxed文本嵌入的关键设计在于如何利用WordNet的语义关系来扩展类别标签。具体来说,对于每个类别标签,首先在WordNet中找到其同义词、上位词和下位词等相关词汇;然后,将这些词汇作为文本嵌入模型的输入,生成语义更丰富的文本特征。分层损失函数的设计也至关重要,它需要平衡图像特征的蒸馏损失和文本特征的蒸馏损失,以确保学生模型能够同时学习图像和文本模态的知识。此外,文本嵌入模型的可学习性也是一个关键设计,它可以根据具体的任务进行优化,从而更好地适应不同的数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在六个公共数据集上取得了最先进或第二好的结果,显著优于现有的跨模态知识蒸馏方法。例如,在ImageNet数据集上,该方法将学生模型的准确率提高了2%以上。此外,可解释性分析表明,WordNet-relaxed文本嵌入能够鼓励学生模型更多地依赖视觉特征,而不是文本捷径,从而提高了模型的泛化能力。

🎯 应用场景

该研究成果可应用于各种图像分类任务,尤其是在类别标签信息有限或存在歧义的情况下。例如,在细粒度图像分类、医学图像诊断等领域,该方法能够有效提升分类的准确性和鲁棒性。此外,该方法还可以推广到其他跨模态学习任务中,例如图像描述生成、视频理解等。

📄 摘要(原文)

Crossmodal knowledge distillation (KD) aims to enhance a unimodal student using a multimodal teacher model. In particular, when the teacher's modalities include the student's, additional complementary information can be exploited to improve knowledge transfer. In supervised image classification, image datasets typically include class labels that represent high-level concepts, suggesting a natural avenue to incorporate textual cues for crossmodal KD. However, these labels rarely capture the deeper semantic structures in real-world visuals and can lead to label leakage if used directly as inputs, ultimately limiting KD performance. To address these issues, we propose a multi-teacher crossmodal KD framework that integrates CLIP image embeddings with learnable WordNet-relaxed text embeddings under a hierarchical loss. By avoiding direct use of exact class names and instead using semantically richer WordNet expansions, we mitigate label leakage and introduce more diverse textual cues. Experiments show that this strategy significantly boosts student performance, whereas noisy or overly precise text embeddings hinder distillation efficiency. Interpretability analyses confirm that WordNet-relaxed prompts encourage heavier reliance on visual features over textual shortcuts, while still effectively incorporating the newly introduced textual cues. Our method achieves state-of-the-art or second-best results on six public datasets, demonstrating its effectiveness in advancing crossmodal KD.