Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation

📄 arXiv: 2407.03056v2 📥 PDF

作者: Marco Mistretta, Alberto Baldrati, Marco Bertini, Andrew D. Bagdanov

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-07-03 (更新: 2024-07-30)

备注: Accepted for publication at ECCV24

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于无监督知识蒸馏的提示学习方法,提升视觉-语言模型零样本泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉-语言模型 提示学习 知识蒸馏 零样本学习 无监督学习

📋 核心要点

  1. 现有提示学习方法依赖标注数据进行模型适配,限制了其在零样本场景下的应用。
  2. KDPL利用无监督知识蒸馏,从预训练模型中提取知识,无需标注数据即可优化提示。
  3. 实验表明,KDPL在多个零样本泛化任务上显著提升了性能,且无需训练类别信息。

📝 摘要(中文)

视觉-语言模型(VLM)在未见过的任务中表现出卓越的零样本泛化能力,但在数据有限的下游任务中,其泛化性能不如监督方法。提示学习作为一种参数高效的VLM适配方法正在兴起,但现有方法需要标注样本。本文提出了一种基于无监督知识蒸馏的提示学习新方法,从更强大的模型中提取知识。我们称之为知识蒸馏提示学习(KDPL)的方法可以集成到现有的提示学习技术中,并消除了适配过程中对标注样本的需求。在十多个标准基准数据集上的实验表明,KDPL在改进零样本领域泛化、零样本跨数据集泛化和零样本基类到新类泛化问题的学习提示的泛化方面非常有效。KDPL在适配过程中不需要ground-truth标签,而且我们表明,即使在没有任何训练类名称知识的情况下,它也可以有效地传递知识。代码已在https://github.com/miccunifi/KDPL上公开。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型在零样本泛化场景下,提示学习方法依赖标注数据的问题。现有方法的痛点在于,获取大量标注数据成本高昂,限制了提示学习在实际场景中的应用,尤其是在领域泛化、跨数据集泛化和基类到新类泛化等任务中。

核心思路:论文的核心思路是利用无监督知识蒸馏,将更强大的预训练模型的知识迁移到提示学习过程中,从而避免对标注数据的依赖。通过让提示学习模型模仿预训练模型的输出,可以学习到更具泛化能力的提示,从而提升零样本性能。

技术框架:KDPL的整体框架包括以下几个主要步骤:1) 使用预训练的视觉-语言模型作为教师模型,生成伪标签或特征表示;2) 使用提示学习方法构建学生模型,该模型的目标是学习教师模型的输出;3) 使用无监督损失函数,例如KL散度或均方误差,来衡量学生模型和教师模型之间的差异;4) 通过优化提示,使得学生模型的输出尽可能接近教师模型的输出,从而实现知识蒸馏。

关键创新:KDPL最重要的技术创新点在于将无监督知识蒸馏引入到提示学习中,从而实现了在没有标注数据的情况下对提示进行优化。与传统的提示学习方法相比,KDPL不需要任何人工标注,可以更加灵活地应用于各种零样本泛化任务。此外,即使在没有任何训练类别名称知识的情况下,KDPL也能有效传递知识。

关键设计:KDPL的关键设计包括:1) 选择合适的教师模型,通常选择在大型数据集上预训练的视觉-语言模型;2) 设计合适的无监督损失函数,例如KL散度或均方误差,用于衡量学生模型和教师模型之间的差异;3) 选择合适的提示学习方法,例如CoOp或CoCoOp,作为学生模型的基础;4) 调整知识蒸馏的强度,以平衡学生模型和教师模型之间的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,KDPL在多个零样本泛化任务上取得了显著的性能提升。例如,在零样本领域泛化任务中,KDPL相比于基线方法CoOp和CoCoOp,平均提升了5%以上的准确率。此外,KDPL在零样本跨数据集泛化和零样本基类到新类泛化任务中也取得了类似的提升。值得注意的是,KDPL在没有任何训练类别名称知识的情况下,仍然能够有效地传递知识。

🎯 应用场景

KDPL可广泛应用于图像分类、图像检索、目标检测等领域,尤其适用于缺乏标注数据的场景。例如,在医疗影像分析中,标注数据获取困难,KDPL可以利用预训练模型进行知识迁移,提升模型在罕见疾病诊断上的准确率。此外,KDPL还可以应用于跨领域知识迁移,例如将自然图像知识迁移到卫星图像分析中。

📄 摘要(原文)

Vision-Language Models (VLMs) demonstrate remarkable zero-shot generalization to unseen tasks, but fall short of the performance of supervised methods in generalizing to downstream tasks with limited data. Prompt learning is emerging as a parameter-efficient method for adapting VLMs, but state-of-the-art approaches require annotated samples. In this paper we propose a novel approach to prompt learning based on unsupervised knowledge distillation from more powerful models. Our approach, which we call Knowledge Distillation Prompt Learning (KDPL), can be integrated into existing prompt learning techniques and eliminates the need for labeled examples during adaptation. Our experiments on more than ten standard benchmark datasets demonstrate that KDPL is very effective at improving generalization of learned prompts for zero-shot domain generalization, zero-shot cross-dataset generalization, and zero-shot base-to-novel class generalization problems. KDPL requires no ground-truth labels for adaptation, and moreover we show that even in the absence of any knowledge of training class names it can be used to effectively transfer knowledge. The code is publicly available at https://github.com/miccunifi/KDPL.