DAIT: Distillation from Vision-Language Models to Lightweight Classifiers with Adaptive Intermediate Teacher Transfer
作者: Zhengxu He, Jun Li, Zhijian Wu
分类: cs.CV
发布日期: 2026-03-16
💡 一句话要点
提出DAIT,通过自适应中间教师迁移,将视觉-语言模型知识蒸馏到轻量级分类器。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 视觉-语言模型 细粒度分类 中间教师 自适应学习
📋 核心要点
- 现有知识蒸馏方法直接从VLM到轻量级模型,存在架构不对齐和引入无关信息的问题,导致性能下降。
- DAIT引入可训练的中间教师,在细粒度任务监督下学习VLM表示,自适应增强判别性视觉线索。
- 实验表明,DAIT在多个细粒度分类数据集上显著提升了轻量级模型的性能,例如在FGVC-Aircraft上提升12.63%。
📝 摘要(中文)
大规模视觉-语言模型(VLM)编码了丰富的多模态语义,这对于细粒度视觉分类(FGVC)非常有益。然而,其巨大的计算成本阻碍了在资源受限环境中的实际部署。知识蒸馏有助于将VLM的能力转移到轻量级分类器,但由于严重的架构不对齐和引入任务无关的信息,传统的直接从通用VLM到紧凑型学生的蒸馏机制通常会产生次优结果。为了缓解这一限制,本研究提出了具有自适应中间教师迁移的蒸馏(DAIT),促进了从VLM到轻量级学生的自适应知识转移。DAIT引入了一个可训练的中间教师,该教师学习在来自目标细粒度任务的显式监督下转移冻结的VLM表示。这个中间教师自适应地增强了判别性视觉线索,从而产生紧凑且任务对齐的知识,可以可靠地将其提炼到轻量级模型中。在具有不同学生架构的多个FGVC基准上的广泛评估表明,我们的方法在FGVC-Aircraft和CUB-200-2011数据集上分别实现了12.63%和8.34%的性能提升,这证明DAIT是从通用VLM迁移到可部署的细粒度识别模型的有效范例。
🔬 方法详解
问题定义:论文旨在解决如何有效地将大规模视觉-语言模型(VLM)的知识迁移到轻量级分类器,用于细粒度视觉分类(FGVC)任务。现有方法直接从VLM蒸馏到轻量级模型,由于架构差异大,且VLM包含大量与FGVC任务无关的信息,导致蒸馏效果不佳。
核心思路:论文的核心思路是引入一个可训练的中间教师模型,作为VLM和轻量级学生模型之间的桥梁。中间教师在FGVC任务的监督下学习VLM的表示,并自适应地提取和增强与任务相关的判别性特征。这样可以减少架构不对齐问题,并过滤掉无关信息,从而提高蒸馏效率。
技术框架:DAIT框架包含三个主要部分:冻结的VLM(教师),可训练的中间教师,以及轻量级学生模型。首先,VLM提取输入图像的特征。然后,中间教师接收VLM的特征作为输入,并在FGVC任务的监督下进行训练,学习生成任务相关的表示。最后,学生模型通过蒸馏学习中间教师的输出,从而获得VLM的知识。
关键创新:DAIT的关键创新在于引入了自适应中间教师。这个中间教师能够根据FGVC任务的特点,自适应地选择和增强VLM特征,从而生成更适合学生模型学习的知识。与直接蒸馏相比,DAIT能够更好地利用VLM的知识,并减少无关信息的干扰。
关键设计:中间教师的网络结构可以根据具体任务进行选择,例如可以使用卷积神经网络或Transformer。训练中间教师时,可以使用交叉熵损失函数来监督其分类性能。蒸馏学生模型时,可以使用知识蒸馏损失函数,例如KL散度或MSE损失函数,来衡量学生模型和中间教师输出之间的差异。此外,还可以使用数据增强等技术来提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
DAIT在FGVC-Aircraft和CUB-200-2011数据集上分别取得了12.63%和8.34%的性能提升,显著优于直接蒸馏等基线方法。实验结果表明,DAIT能够有效地将VLM的知识迁移到轻量级模型,并在细粒度分类任务上取得显著的性能提升。
🎯 应用场景
DAIT方法可应用于各种需要细粒度图像识别的场景,例如动植物识别、医学图像分析、工业产品缺陷检测等。通过将大型VLM的知识迁移到轻量级模型,可以在资源受限的设备上实现高性能的细粒度识别,具有重要的实际应用价值。
📄 摘要(原文)
Large-scale Vision-Language Models (VLMs) encode rich multimodal semantics that are highly beneficial for fine-grained visual categorization (FGVC). However, their prohibitive computational cost hinders practical deployment in resource-constrained environments. Although knowledge distillation contributes to transferring VLMs capacity to lightweight classifiers, conventional distillation mechanisms, which directly transfer from a generic VLM to a compact student, often yield suboptimal results due to severe architectural misalignment and introducing task-irrelevant information. To alleviate this limitation, we propose Distillation with Adaptive Intermediate Teacher transfer (DAIT) in this study, facilitating adaptive knowledge transfer from VLMs to lightweight students. DAIT introduces a trainable intermediate teacher that learns to transfer frozen VLMs representations under explicit supervision from the target fine-grained task. This intermediate teacher adaptively enhances discriminative visual cues, thereby producing compact and task-aligned knowledge that can be reliably distilled into lightweight models. Extensive evaluations on multiple FGVC benchmarks with diverse student architectures demonstrate that our method achieves respective performance gains of 12.63% and 8.34% on FGVC-Aircraft and CUB-200-2011 datasets, establishing DAIT as a principled paradigm for transferring from general-purpose VLMS to deployable fine-grained recognition models.