Tiny models from tiny data: Textual and null-text inversion for few-shot distillation

作者: Erik Landolsi, Fredrik Kahl

分类: cs.CV, cs.LG

发布日期: 2024-06-05 (更新: 2025-03-20)

备注: 24 pages (13 main pages + references and appendix)

🔗 代码/项目: GITHUB

💡 一句话要点

提出TINT：结合文本和空文本反演的少样本蒸馏方法，提升小模型精度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 少样本学习 知识蒸馏 扩散模型 文本反演 空文本反演

📋 核心要点

少样本学习面临数据稀缺挑战，现有蒸馏方法依赖大量无标签数据，难以应用。
提出TINT方法，结合文本反演和空文本反演，生成高质量合成数据用于知识蒸馏。
实验表明，该方法在少样本蒸馏中实现了SOTA精度，并显著提升了推理速度。

📝 摘要（中文）

本文提出了一种用于少样本学习场景下的新颖扩散模型反演技术(TINT)，该技术结合了文本反演的多样性和空文本反演的特异性。在少样本蒸馏流程中使用该方法，可以在流行基准测试中实现小规模学生模型的state-of-the-art精度，同时显著快于先前的工作。流行的少样本基准测试涉及大量episode的评估，这对于涉及合成数据生成的方法来说计算量很大。本文还对精度估计器的方差如何依赖于episode和查询示例的数量进行了理论分析，并使用这些结果来降低方法评估所需的计算工作量。最后，为了进一步激发生成模型在少样本蒸馏中的应用，本文证明了该方法优于在从原始扩散模型训练中使用的数据集中挖掘的真实数据上进行训练。

🔬 方法详解

问题定义：少样本学习旨在仅利用少量样本进行图像分类等任务。知识蒸馏可以将大型模型的知识迁移到小型模型，但传统蒸馏方法需要大量无标签数据，这在少样本场景下是不可行的。现有方法生成合成数据，但质量和多样性不足，影响蒸馏效果。

核心思路：本文的核心思路是利用扩散模型生成高质量的合成数据，用于训练小型学生模型。通过结合文本反演和空文本反演，TINT方法能够生成既具有多样性又与目标类别相关的合成数据，从而提高蒸馏效果。

技术框架：该方法包含以下几个主要阶段：1) 使用TINT方法生成合成数据；2) 利用合成数据训练小型学生模型；3) 在少样本基准测试上评估学生模型的性能。TINT方法是整个框架的核心，负责生成高质量的合成数据。

关键创新：TINT方法是本文的关键创新点。它结合了文本反演和空文本反演的优点。文本反演能够生成具有多样性的图像，而空文本反演能够生成与特定类别相关的图像。TINT方法通过优化文本嵌入和空文本嵌入，生成既具有多样性又与目标类别相关的合成数据。与现有方法相比，TINT方法生成的合成数据质量更高，更适合用于知识蒸馏。

关键设计：TINT方法通过优化以下损失函数来生成合成数据：L = L_text + λL_null，其中L_text是文本反演损失，L_null是空文本反演损失，λ是权重系数。文本反演损失鼓励生成的图像与文本描述一致，而空文本反演损失鼓励生成的图像与特定类别相关。λ的取值需要根据具体任务进行调整。此外，本文还对精度估计器的方差进行了理论分析，并提出了降低计算复杂度的评估方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TINT方法在流行的少样本基准测试中实现了SOTA精度。与现有方法相比，TINT方法在保证精度的前提下，显著提升了推理速度。此外，实验还证明了TINT方法优于在真实数据上进行训练，进一步验证了生成模型在少样本蒸馏中的有效性。

🎯 应用场景

该研究成果可应用于资源受限设备上的图像分类任务，例如移动端应用、嵌入式系统等。通过知识蒸馏，可以将大型模型的知识迁移到小型模型，从而在保证精度的前提下，降低计算成本和存储空间需求。该方法在医疗影像分析、自动驾驶等领域具有潜在应用价值。

📄 摘要（原文）

Few-shot learning deals with problems such as image classification using very few training examples. Recent vision foundation models show excellent few-shot transfer abilities, but are large and slow at inference. Using knowledge distillation, the capabilities of high-performing but slow models can be transferred to tiny, efficient models. However, common distillation methods require a large set of unlabeled data, which is not available in the few-shot setting. To overcome this lack of data, there has been a recent interest in using synthetic data. We expand on this line of research by presenting a novel diffusion model inversion technique (TINT) combining the diversity of textual inversion with the specificity of null-text inversion. Using this method in a few-shot distillation pipeline leads to state-of-the-art accuracy among small student models on popular benchmarks, while being significantly faster than prior work. Popular few-shot benchmarks involve evaluation over a large number of episodes, which is computationally cumbersome for methods involving synthetic data generation. We also present a theoretical analysis on how the accuracy estimator variance depends on the number of episodes and query examples, and use these results to lower the computational effort required for method evaluation. Finally, to further motivate the use of generative models in few-shot distillation, we demonstrate that our method outperforms training on real data mined from the dataset used in the original diffusion model training. Source code is available at https://github.com/pixwse/tiny2.

Tiny models from tiny data: Textual and null-text inversion for few-shot distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理