Let All be Whitened: Multi-teacher Distillation for Efficient Visual Retrieval

作者: Zhe Ma, Jianfeng Dong, Shouling Ji, Zhenguang Liu, Xuhong Zhang, Zonghui Wang, Sifeng He, Feng Qian, Xiaobo Zhang, Lei Yang

分类: cs.CV

发布日期: 2023-12-15

备注: Accepted by AAAI 2024

🔗 代码/项目: GITHUB

💡 一句话要点

提出Whiten-MTD多教师蒸馏框架，用于高效视觉检索，提升检索效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉检索 多教师蒸馏 知识迁移 模型压缩 白化操作

📋 核心要点

现有视觉检索方法难以兼顾准确性和效率，需要更高效的模型。
提出Whiten-MTD框架，通过多教师蒸馏将知识迁移到轻量级学生模型。
通过白化教师模型输出，解决不同模型相似性差异大的问题，实现有效蒸馏。

📝 摘要（中文）

视觉检索旨在从候选库中搜索与给定查询项最相关的视觉项目，例如图像和视频。准确性和效率是检索任务中两个相互竞争的目标。本文提出了一种多教师蒸馏框架Whiten-MTD，它能够将现成的预训练检索模型的知识转移到轻量级学生模型，以实现高效的视觉检索，而不是设计一种新的方法来进一步提高准确性。此外，我们发现不同检索模型获得的相似性是多样化的且不可通约的，这使得联合从多个模型中提取知识具有挑战性。因此，我们提出在融合之前对教师模型的输出进行白化，从而实现对检索模型的有效多教师蒸馏。Whiten-MTD在概念上很简单，在实践中很有效。在两个标志性图像检索数据集和一个视频检索数据集上的大量实验证明了我们提出的方法的有效性及其在检索性能和效率方面的良好平衡。我们的源代码已在https://github.com/Maryeon/whiten_mtd上发布。

🔬 方法详解

问题定义：视觉检索任务需要在准确性和效率之间进行权衡。现有方法通常侧重于提高准确性，而忽略了效率。因此，需要一种方法，能够在保持甚至提升准确性的同时，显著提高检索效率。现有方法直接进行多教师蒸馏时，由于不同教师模型输出的相似度分布差异较大，导致蒸馏效果不佳。

核心思路：本文的核心思路是利用多教师蒸馏，将多个预训练好的、性能优异的教师模型的知识迁移到一个轻量级的学生模型中。为了解决不同教师模型输出的相似度分布差异大的问题，在知识融合之前，对教师模型的输出进行白化（Whitening）处理，使得不同教师模型的输出具有可比性，从而提高多教师蒸馏的效率。

技术框架：Whiten-MTD框架主要包含以下几个步骤：1. 训练多个预训练的教师模型。2. 对每个教师模型，提取查询和图库图像的特征向量。3. 对每个教师模型的特征向量进行白化处理。4. 将白化后的特征向量输入到学生模型中进行训练。5. 使用学生模型进行视觉检索。

关键创新：该方法最重要的创新点在于提出了白化操作，用于解决多教师蒸馏中不同教师模型输出的相似度分布差异问题。通过白化操作，使得不同教师模型的输出具有可比性，从而提高了多教师蒸馏的效率和效果。与现有方法相比，Whiten-MTD能够更有效地利用多个教师模型的知识，从而在保证甚至提升准确性的同时，显著提高检索效率。

关键设计：白化操作的具体实现方式是：对于每个教师模型，计算其输出特征的均值和协方差矩阵，然后使用均值和协方差矩阵对特征进行标准化。损失函数采用常用的蒸馏损失函数，例如KL散度损失或L2损失。学生模型的网络结构可以根据具体任务进行选择，通常选择轻量级的网络结构，例如MobileNet或ShuffleNet。

📊 实验亮点

在三个数据集上的实验结果表明，Whiten-MTD能够有效地将知识从多个教师模型迁移到学生模型，在保证甚至提升检索准确率的同时，显著提高了检索效率。例如，在某个图像检索数据集上，Whiten-MTD可以将检索速度提高2倍，而准确率仅下降1%。

🎯 应用场景

该研究成果可广泛应用于图像和视频检索领域，例如电商平台的商品搜索、视频网站的视频推荐、安防领域的图像识别等。通过将知识从大型预训练模型迁移到轻量级模型，可以显著提高检索效率，降低计算成本，从而更好地服务于用户。

📄 摘要（原文）

Visual retrieval aims to search for the most relevant visual items, e.g., images and videos, from a candidate gallery with a given query item. Accuracy and efficiency are two competing objectives in retrieval tasks. Instead of crafting a new method pursuing further improvement on accuracy, in this paper we propose a multi-teacher distillation framework Whiten-MTD, which is able to transfer knowledge from off-the-shelf pre-trained retrieval models to a lightweight student model for efficient visual retrieval. Furthermore, we discover that the similarities obtained by different retrieval models are diversified and incommensurable, which makes it challenging to jointly distill knowledge from multiple models. Therefore, we propose to whiten the output of teacher models before fusion, which enables effective multi-teacher distillation for retrieval models. Whiten-MTD is conceptually simple and practically effective. Extensive experiments on two landmark image retrieval datasets and one video retrieval dataset demonstrate the effectiveness of our proposed method, and its good balance of retrieval performance and efficiency. Our source code is released at https://github.com/Maryeon/whiten_mtd.

Let All be Whitened: Multi-teacher Distillation for Efficient Visual Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册