CLIP-RD: Relational Distillation for Efficient CLIP Knowledge Distillation

📄 arXiv: 2603.25383v1 📥 PDF

作者: Jeannie Chung, Hanna Jang, Ingyeong Yang, Uiwon Hwang, Jaehyung Sim

分类: cs.CV

发布日期: 2026-03-26


💡 一句话要点

提出CLIP-RD,通过关系蒸馏提升CLIP模型知识蒸馏效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: CLIP 知识蒸馏 关系蒸馏 多模态学习 零样本学习

📋 核心要点

  1. 现有CLIP蒸馏方法忽略了教师和学生嵌入间的多方向关系依赖,导致学生模型难以完整学习教师模型的结构关系。
  2. CLIP-RD通过垂直关系蒸馏(VRD)和交叉关系蒸馏(XRD)建模多方向关系,促进学生模型嵌入几何结构与教师模型对齐。
  3. 实验结果表明,CLIP-RD在知识蒸馏任务中优于现有方法0.8%p,证明了关系蒸馏的有效性。

📝 摘要(中文)

CLIP通过对比学习对齐图像和文本嵌入,展现出强大的零样本泛化能力。但其大规模架构需要大量的计算和内存资源,因此需要将其能力蒸馏到轻量级学生模型中。然而,现有的CLIP蒸馏方法没有明确地建模教师和学生嵌入之间的多方向关系依赖,限制了学生模型保留教师模型编码的结构关系的能力。为了解决这个问题,我们提出了一个关系知识蒸馏框架,引入了两种新方法,垂直关系蒸馏(VRD)和交叉关系蒸馏(XRD)。VRD在分布层面上强制执行跨模态的教师-学生蒸馏强度一致性,而XRD对跨模态教师-学生相似度分布施加双向对称性。通过联合建模多方向关系结构,CLIP-RD促进了学生嵌入几何结构与教师嵌入几何结构的忠实对齐,性能优于现有方法0.8%p。

🔬 方法详解

问题定义:现有的CLIP知识蒸馏方法主要关注于直接模仿教师模型的嵌入表示,而忽略了教师模型中蕴含的图像和文本嵌入之间的复杂关系结构。这种忽略导致学生模型在学习教师模型知识时,无法充分捕捉到跨模态之间的关联性,从而限制了学生模型的性能。

核心思路:论文的核心思路是通过关系蒸馏,显式地建模教师和学生嵌入之间的多方向关系依赖。具体来说,论文提出了垂直关系蒸馏(VRD)和交叉关系蒸馏(XRD)两种方法,分别从模态内和模态间的角度来约束学生模型的学习,使得学生模型能够更好地学习教师模型的关系结构。

技术框架:CLIP-RD框架包含两个主要模块:垂直关系蒸馏(VRD)和交叉关系蒸馏(XRD)。VRD旨在保持教师和学生在各自模态内的蒸馏强度一致性,通过最小化教师和学生在图像和文本模态上的蒸馏强度分布差异来实现。XRD则通过对跨模态教师-学生相似度分布施加双向对称性约束,来保证学生模型学习到的跨模态关系与教师模型一致。

关键创新:论文的关键创新在于提出了关系蒸馏的概念,并将其应用于CLIP知识蒸馏中。与以往直接模仿嵌入表示的方法不同,CLIP-RD通过建模教师和学生嵌入之间的关系结构,使得学生模型能够更好地学习教师模型的知识。VRD和XRD两种方法分别从模态内和模态间的角度来约束学生模型的学习,共同促进了学生模型嵌入几何结构与教师模型对齐。

关键设计:VRD通过计算教师和学生在各自模态上的蒸馏强度分布,并使用KL散度来衡量这两个分布之间的差异。XRD则通过计算教师和学生之间的跨模态相似度矩阵,并使用均方误差来衡量这两个矩阵之间的差异。在训练过程中,VRD和XRD的损失函数与传统的知识蒸馏损失函数结合使用,共同优化学生模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CLIP-RD在多个基准数据集上取得了显著的性能提升,超越了现有的CLIP知识蒸馏方法。具体来说,CLIP-RD在zero-shot图像分类任务上,相比于基线方法提升了0.8%p。这些结果证明了关系蒸馏在CLIP知识蒸馏中的有效性,以及CLIP-RD在提升学生模型性能方面的优势。

🎯 应用场景

CLIP-RD具有广泛的应用前景,例如在资源受限的设备上部署高性能的视觉-语言模型,加速多模态信息检索,以及提升零样本图像分类等任务的性能。通过将大型CLIP模型的知识蒸馏到轻量级学生模型中,CLIP-RD可以降低计算成本和内存需求,使得CLIP模型能够应用于更多的实际场景。

📄 摘要(原文)

CLIP aligns image and text embeddings via contrastive learning and demonstrates strong zero-shot generalization. Its large-scale architecture requires substantial computational and memory resources, motivating the distillation of its capabilities into lightweight student models. However, existing CLIP distillation methods do not explicitly model multi-directional relational dependencies between teacher and student embeddings, limiting the student's ability to preserve the structural relationships encoded by the teacher. To address this, we propose a relational knowledge distillation framework that introduces two novel methods, Vertical Relational Distillation (VRD) and Cross Relational Distillation (XRD). VRD enforces consistency of teacher-student distillation strength across modalities at the distribution level, while XRD imposes bidirectional symmetry on cross-modal teacher-student similarity distributions. By jointly modeling multi-directional relational structures, CLIP-RD promotes faithful alignment of the student embedding geometry with that of the teacher, outperforming existing methods by 0.8%p.