CLIP-RD: Relational Distillation for Efficient CLIP Knowledge Distillation

📄 arXiv: 2603.25383v2 📥 PDF

作者: Jeannie Chung, Hanna Jang, Ingyeong Yang, Uiwon Hwang, Jaehyeong Sim

分类: cs.CV

发布日期: 2026-03-26 (更新: 2026-03-27)


💡 一句话要点

提出CLIP-RD,通过关系蒸馏提升CLIP模型知识蒸馏效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: CLIP 知识蒸馏 多模态学习 关系蒸馏 对比学习

📋 核心要点

  1. 现有CLIP蒸馏方法忽略了教师和学生嵌入间的多方向关系依赖,导致学生模型难以学习教师模型的结构关系。
  2. 提出关系知识蒸馏框架CLIP-RD,通过垂直关系蒸馏(VRD)和交叉关系蒸馏(XRD)建模多方向关系。
  3. 实验结果表明,CLIP-RD能够更忠实地对齐学生和教师的嵌入几何,性能超越现有方法0.8个百分点。

📝 摘要(中文)

CLIP通过对比学习对齐图像和文本嵌入,展现出强大的零样本泛化能力。但其大规模架构需要大量的计算和内存资源,因此需要将其能力蒸馏到轻量级的学生模型中。然而,现有的CLIP蒸馏方法没有明确地建模教师和学生嵌入之间的多方向关系依赖,限制了学生模型保留教师模型编码的结构关系的能力。为了解决这个问题,我们提出了一个关系知识蒸馏框架,引入了两种新方法,垂直关系蒸馏(VRD)和交叉关系蒸馏(XRD)。VRD在分布层面上强制执行跨模态的教师-学生蒸馏强度一致性,而XRD对跨模态的教师-学生相似度分布施加双向对称性。通过联合建模多方向关系结构,CLIP-RD促进了学生嵌入几何与教师嵌入几何的忠实对齐,性能优于现有方法0.8个百分点。

🔬 方法详解

问题定义:现有的CLIP知识蒸馏方法在将大型CLIP模型的知识迁移到小型学生模型时,忽略了教师模型和学生模型嵌入之间的复杂关系。具体来说,它们没有充分利用图像和文本模态之间的相互依赖性,以及教师和学生模型在不同模态上的蒸馏强度差异。这导致学生模型无法完全捕捉到教师模型所学习到的结构化知识,从而限制了蒸馏效果。

核心思路:CLIP-RD的核心思路是通过显式地建模教师和学生嵌入之间的多方向关系,来提高知识蒸馏的效率和效果。它认为,不仅要关注单个嵌入向量的相似性,更要关注不同模态之间以及教师和学生模型之间的关系结构。通过保持这些关系的一致性,可以使学生模型更好地学习到教师模型的知识。

技术框架:CLIP-RD框架主要包含两个关键模块:垂直关系蒸馏(VRD)和交叉关系蒸馏(XRD)。VRD旨在确保在图像和文本模态上,教师和学生模型的蒸馏强度保持一致。XRD则强制跨模态的教师-学生相似度分布具有双向对称性。这两个模块共同作用,促进学生模型嵌入几何与教师模型嵌入几何的对齐。整体流程是首先使用预训练的CLIP模型作为教师模型,然后利用VRD和XRD损失函数来训练学生模型。

关键创新:CLIP-RD的关键创新在于它显式地建模了教师和学生嵌入之间的多方向关系。与以往只关注单个嵌入向量的蒸馏方法不同,CLIP-RD同时考虑了模态内和模态间的关系,以及教师和学生模型之间的关系。这种关系建模方法能够更全面地捕捉到教师模型的知识,从而提高蒸馏效果。

关键设计:VRD通过计算教师和学生模型在不同模态上的蒸馏强度分布,并使用KL散度来衡量这些分布之间的差异,从而实现蒸馏强度的一致性。XRD则通过计算跨模态的教师-学生相似度矩阵,并强制该矩阵与其转置矩阵之间的差异最小化,从而实现双向对称性。损失函数是VRD损失和XRD损失的加权和,权重系数需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CLIP-RD在多个基准数据集上进行了评估,实验结果表明,CLIP-RD优于现有的CLIP知识蒸馏方法。例如,在ImageNet数据集上,CLIP-RD的零样本分类准确率比现有方法提高了0.8个百分点。这表明CLIP-RD能够更有效地将大型CLIP模型的知识迁移到小型学生模型中。

🎯 应用场景

CLIP-RD可应用于各种需要高效多模态表示学习的场景,如图像检索、文本检索、视觉问答、零样本图像分类等。通过将大型CLIP模型的知识蒸馏到轻量级模型中,可以在资源受限的设备上部署高性能的多模态应用,例如移动设备上的图像搜索和智能助手。

📄 摘要(原文)

CLIP aligns image and text embeddings via contrastive learning and demonstrates strong zero-shot generalization. Its large-scale architecture requires substantial computational and memory resources, motivating the distillation of its capabilities into lightweight student models. However, existing CLIP distillation methods do not explicitly model multi-directional relational dependencies between teacher and student embeddings, limiting the student's ability to preserve the structural relationships encoded by the teacher. To address this, we propose a relational knowledge distillation framework that introduces two novel methods, Vertical Relational Distillation (VRD) and Cross Relational Distillation (XRD). VRD enforces consistency of teacher-student distillation strength across modalities at the distribution level, while XRD imposes bidirectional symmetry on cross-modal teacher-student similarity distributions. By jointly modeling multi-directional relational structures, CLIP-RD promotes faithful alignment of the student embedding geometry with that of the teacher, outperforming existing methods by 0.8%p.