DAIT: Distillation from Vision-Language Models to Lightweight Classifiers with Adaptive Intermediate Teacher Transfer

作者: Zhengxu He, Jun Li, Zhijian Wu

分类: cs.CV

发布日期: 2026-03-16

💡 一句话要点

提出DAIT，通过自适应中间教师迁移，将视觉-语言模型知识蒸馏到轻量级分类器。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 视觉-语言模型 细粒度分类 中间教师 自适应学习

📋 核心要点

现有知识蒸馏方法直接从VLM到轻量级模型，存在架构不对齐和引入无关信息的问题，导致性能下降。
DAIT引入可训练的中间教师，在细粒度任务监督下学习VLM表示，自适应增强判别性视觉线索。
实验表明，DAIT在多个细粒度分类数据集上显著提升了轻量级模型的性能，例如在FGVC-Aircraft上提升12.63%。

📝 摘要（中文）

大规模视觉-语言模型(VLM)编码了丰富的多模态语义，这对于细粒度视觉分类(FGVC)非常有益。然而，其巨大的计算成本阻碍了在资源受限环境中的实际部署。知识蒸馏有助于将VLM的能力转移到轻量级分类器，但由于严重的架构不对齐和引入任务无关的信息，传统的直接从通用VLM到紧凑型学生的蒸馏机制通常会产生次优结果。为了缓解这一限制，本研究提出了具有自适应中间教师迁移的蒸馏(DAIT)，促进了从VLM到轻量级学生的自适应知识转移。DAIT引入了一个可训练的中间教师，该教师学习在来自目标细粒度任务的显式监督下转移冻结的VLM表示。这个中间教师自适应地增强了判别性视觉线索，从而产生紧凑且任务对齐的知识，可以可靠地将其提炼到轻量级模型中。在具有不同学生架构的多个FGVC基准上的广泛评估表明，我们的方法在FGVC-Aircraft和CUB-200-2011数据集上分别实现了12.63%和8.34%的性能提升，这证明DAIT是从通用VLM迁移到可部署的细粒度识别模型的有效范例。

🔬 方法详解

问题定义：论文旨在解决如何有效地将大规模视觉-语言模型（VLM）的知识迁移到轻量级分类器，用于细粒度视觉分类（FGVC）任务。现有方法直接从VLM蒸馏到轻量级模型，由于架构差异大，且VLM包含大量与FGVC任务无关的信息，导致蒸馏效果不佳。

核心思路：论文的核心思路是引入一个可训练的中间教师模型，作为VLM和轻量级学生模型之间的桥梁。中间教师在FGVC任务的监督下学习VLM的表示，并自适应地提取和增强与任务相关的判别性特征。这样可以减少架构不对齐问题，并过滤掉无关信息，从而提高蒸馏效率。

技术框架：DAIT框架包含三个主要部分：冻结的VLM（教师），可训练的中间教师，以及轻量级学生模型。首先，VLM提取输入图像的特征。然后，中间教师接收VLM的特征作为输入，并在FGVC任务的监督下进行训练，学习生成任务相关的表示。最后，学生模型通过蒸馏学习中间教师的输出，从而获得VLM的知识。

关键创新：DAIT的关键创新在于引入了自适应中间教师。这个中间教师能够根据FGVC任务的特点，自适应地选择和增强VLM特征，从而生成更适合学生模型学习的知识。与直接蒸馏相比，DAIT能够更好地利用VLM的知识，并减少无关信息的干扰。

关键设计：中间教师的网络结构可以根据具体任务进行选择，例如可以使用卷积神经网络或Transformer。训练中间教师时，可以使用交叉熵损失函数来监督其分类性能。蒸馏学生模型时，可以使用知识蒸馏损失函数，例如KL散度或MSE损失函数，来衡量学生模型和中间教师输出之间的差异。此外，还可以使用数据增强等技术来提高模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

DAIT在FGVC-Aircraft和CUB-200-2011数据集上分别取得了12.63%和8.34%的性能提升，显著优于直接蒸馏等基线方法。实验结果表明，DAIT能够有效地将VLM的知识迁移到轻量级模型，并在细粒度分类任务上取得显著的性能提升。

🎯 应用场景

DAIT方法可应用于各种需要细粒度图像识别的场景，例如动植物识别、医学图像分析、工业产品缺陷检测等。通过将大型VLM的知识迁移到轻量级模型，可以在资源受限的设备上实现高性能的细粒度识别，具有重要的实际应用价值。

📄 摘要（原文）

Large-scale Vision-Language Models (VLMs) encode rich multimodal semantics that are highly beneficial for fine-grained visual categorization (FGVC). However, their prohibitive computational cost hinders practical deployment in resource-constrained environments. Although knowledge distillation contributes to transferring VLMs capacity to lightweight classifiers, conventional distillation mechanisms, which directly transfer from a generic VLM to a compact student, often yield suboptimal results due to severe architectural misalignment and introducing task-irrelevant information. To alleviate this limitation, we propose Distillation with Adaptive Intermediate Teacher transfer (DAIT) in this study, facilitating adaptive knowledge transfer from VLMs to lightweight students. DAIT introduces a trainable intermediate teacher that learns to transfer frozen VLMs representations under explicit supervision from the target fine-grained task. This intermediate teacher adaptively enhances discriminative visual cues, thereby producing compact and task-aligned knowledge that can be reliably distilled into lightweight models. Extensive evaluations on multiple FGVC benchmarks with diverse student architectures demonstrate that our method achieves respective performance gains of 12.63% and 8.34% on FGVC-Aircraft and CUB-200-2011 datasets, establishing DAIT as a principled paradigm for transferring from general-purpose VLMS to deployable fine-grained recognition models.

DAIT: Distillation from Vision-Language Models to Lightweight Classifiers with Adaptive Intermediate Teacher Transfer

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理