Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models
作者: Haoyi Sun, Xiaoxiao Wang, Ning Mao, Qian Wang, Lifu Mu, Wen Zheng, Tao Wei, Wei Chen
分类: cs.CV
发布日期: 2026-04-16
备注: 11 pages, 3 figures
期刊: IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Findings, 2026
💡 一句话要点
提出Visual-Switch知识蒸馏框架,解决视觉语言模型多模态知识对齐问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 知识蒸馏 多模态对齐 跨模态学习 模型压缩
📋 核心要点
- 现有视觉语言模型的知识蒸馏方法缺乏对多模态知识对齐的显式建模,导致知识传递不一致。
- 提出Visual-Switch Distillation,将学生模型的视觉输出转换到教师模型的语言空间,构建跨模态概率参考。
- 实验结果表明,该方法能有效提升小模型的性能,在多个多模态基准测试中取得了显著的提升。
📝 摘要(中文)
视觉语言模型(VLMs)在联合视觉语言理解方面表现出卓越的能力,但其大规模对资源受限场景的部署提出了重大挑战。知识蒸馏(KD)提供了一种可行的方法,可以在不增加模型大小或数据需求的情况下提高模型能力,从而提高部署效率。然而,将KD应用于VLMs面临着模态特定监督的挑战:尽管VLMs中的多模态知识在语言空间内融合,但当前的方法分别监督每个模态,而没有明确地解决多模态对齐问题,导致多模态知识传递不一致。为了解决这个问题,我们提出了Switch-KD,一个视觉切换蒸馏框架,它在共享的文本概率空间中统一了视觉语言知识传递。Switch-KD包括两个关键组件:(1)视觉切换蒸馏,它将学生的视觉输出切换到教师的语言通路中,以构建用于隐式视觉知识传递的跨模态概率参考;(2)动态双向logits差异(DBiLD)损失,它自适应地对齐信息丰富的概率区域,同时通过双向监督保持教师和学生的分布结构。在Switch-KD的指导下,一个0.5B的TinyLLaVA有效地从其3B教师那里提取了丰富的多模态知识,在10个多模态基准测试中平均提高了3.6个点,而没有任何架构修改。
🔬 方法详解
问题定义:现有视觉语言模型(VLM)的知识蒸馏方法通常独立地监督每个模态,忽略了视觉和语言模态之间的对齐关系。这导致学生模型难以学习到教师模型中融合的多模态知识,限制了蒸馏效果。现有方法的痛点在于缺乏一种有效的跨模态知识传递机制,无法保证多模态信息的一致性。
核心思路:Switch-KD的核心思路是将学生模型的视觉信息“切换”到教师模型的语言空间中,利用教师模型的语言能力来指导学生模型的视觉表示学习。通过构建跨模态的概率参考,实现视觉知识的隐式传递,从而解决多模态对齐问题。
技术框架:Switch-KD框架主要包含两个关键模块:Visual-Switch Distillation和Dynamic Bi-directional Logits Difference (DBiLD) loss。Visual-Switch Distillation模块负责将学生模型的视觉输出转换到教师模型的语言通路中,生成跨模态概率分布。DBiLD loss则用于自适应地对齐教师和学生模型的概率分布,同时保留各自的分布结构。
关键创新:该方法最重要的创新点在于提出了Visual-Switch Distillation,它打破了传统知识蒸馏中模态分离的监督方式,通过将视觉信息融入语言空间,实现了跨模态知识的有效传递。DBiLD loss的设计也考虑了概率分布的结构信息,避免了简单logits匹配可能导致的信息损失。
关键设计:Visual-Switch Distillation的具体实现方式是将学生模型的视觉编码器的输出输入到教师模型的语言解码器中,生成一个概率分布。DBiLD loss包含两个方向的KL散度损失,分别用于约束学生模型和教师模型的概率分布。此外,DBiLD loss还引入了一个动态权重,用于自适应地调整不同概率区域的对齐程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Switch-KD的指导下,一个0.5B的TinyLLaVA模型能够有效地从一个3B的教师模型中提取丰富的多模态知识,并在10个多模态基准测试中平均提高了3.6个点。该方法在不改变模型架构的前提下,显著提升了小模型的性能,验证了其有效性。
🎯 应用场景
该研究成果可应用于各种资源受限场景下的视觉语言模型部署,例如移动设备、嵌入式系统等。通过知识蒸馏,可以将大型VLM的知识迁移到小型模型上,从而在保证性能的同时降低计算成本和存储需求。这对于推动VLM在实际应用中的普及具有重要意义。
📄 摘要(原文)
Vision-Language Models (VLMs) have shown remarkable capabilities in joint vision-language understanding, but their large scale poses significant challenges for deployment in resource-constrained scenarios. Knowledge Distillation (KD) offers a viable way to improve model capabilities without increasing model size or data requirements, making deployment more efficient. However, applying KD to VLMs is challenged by modality-specific supervision: although multimodal knowledge in VLMs is fused within the language space, current methods supervise each modality separately without explicitly addressing multimodal alignment, leading to inconsistent multimodal knowledge transfer. To address this, we propose Switch-KD, a visual-switch distillation framework that unifies vision-language knowledge transfer within a shared text-probability space. Switch-KD comprises two key components: (1) Visual-Switch Distillation, which switches the student's visual outputs into the teacher's language pathway to construct cross-modal probabilistic references for implicit visual knowledge transfer; and (2) Dynamic Bi-directional Logits Difference (DBiLD) loss, which adaptively aligns informative probability regions while preserving the distributional structures of teacher and student through bidirectional supervision. Guided by Switch-KD, a 0.5B TinyLLaVA effectively distills rich multimodal knowledge from its 3B teacher, yielding an average improvement of 3.6 points across 10 multimodal benchmarks without any architectural modification.