Soft Label Pruning and Quantization for Large-Scale Dataset Distillation
作者: Xiao Lingao, Yang He
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-04-20
DOI: 10.1109/TPAMI.2026.3664488
🔗 代码/项目: GITHUB
💡 一句话要点
提出LPQLD方法,显著降低大规模数据集蒸馏中软标签的存储开销并提升精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 数据集蒸馏 软标签剪枝 软标签量化 知识蒸馏 模型压缩
📋 核心要点
- 大规模数据集蒸馏面临软标签存储开销过大的问题,严重影响了压缩效率。
- LPQLD通过增强图像多样性和监督多样性,有效降低了软标签的存储需求。
- 实验表明,LPQLD在降低存储开销的同时,还能提升模型在ImageNet等数据集上的精度。
📝 摘要(中文)
大规模数据集蒸馏需要在ImageNet-1K上存储比压缩图像大30-40倍的辅助软标签,在ImageNet-21K上则大200倍,这削弱了数据集压缩的目标。本文指出了导致如此庞大标签的两个根本问题:(1)图像多样性不足,合成图像中高的类内相似性需要大量的增强;(2)监督多样性不足,训练期间监督信号的有限多样性导致高压缩率下的性能下降。为了解决这些挑战,我们提出了用于大规模蒸馏的标签剪枝和量化(LPQLD)。我们通过类批量和批量归一化监督来增强图像多样性。对于监督多样性,我们引入了具有动态知识重用的标签剪枝来提高标签-增强多样性,以及具有校准学生-教师对齐的标签量化来提高增强-图像多样性。我们的方法在ImageNet-1K上减少了78倍的软标签存储,在ImageNet-21K上减少了500倍,同时分别提高了高达7.2%和2.8%的精度。大量的实验验证了LPQLD在不同网络架构和数据集蒸馏方法上的优越性。
🔬 方法详解
问题定义:大规模数据集蒸馏旨在用少量合成数据替代原始数据集,以降低存储和计算成本。然而,现有方法通常需要存储大量的辅助软标签,这些标签的大小甚至远大于合成图像本身,抵消了数据集压缩的优势。现有方法的痛点在于合成图像的多样性不足,以及训练过程中监督信号的匮乏,导致需要大量的软标签才能保证模型性能。
核心思路:本文的核心思路是通过增强合成图像的多样性和监督信号的多样性,从而减少对大量软标签的依赖。具体来说,通过类批量和批量归一化监督来提高图像的多样性,并采用标签剪枝和量化技术来增加监督信号的多样性。这样设计的目的是在保证模型性能的前提下,尽可能地减少软标签的存储开销。
技术框架:LPQLD方法的整体框架包括两个主要部分:图像多样性增强和监督多样性增强。图像多样性增强通过类批量和批量归一化监督来实现。监督多样性增强则包括两个模块:(1) 具有动态知识重用的标签剪枝,用于提高标签-增强的多样性;(2) 具有校准学生-教师对齐的标签量化,用于提高增强-图像的多样性。这两个模块共同作用,减少了对大量软标签的需求。
关键创新:LPQLD的关键创新在于同时关注了图像多样性和监督多样性,并提出了相应的解决方案。传统的蒸馏方法往往只关注图像的压缩,而忽略了软标签带来的额外开销。LPQLD通过标签剪枝和量化,有效地减少了软标签的冗余信息,从而降低了存储开销。动态知识重用和校准学生-教师对齐进一步提升了模型的性能。
关键设计:在图像多样性增强方面,采用了类批量和批量归一化监督。在标签剪枝方面,设计了动态知识重用机制,以保留重要的监督信息。在标签量化方面,采用了校准学生-教师对齐策略,以保证量化后的标签能够有效地传递知识。具体的参数设置和损失函数细节在论文中有详细描述,但摘要中未提供具体数值。
🖼️ 关键图片
📊 实验亮点
LPQLD方法在ImageNet-1K上将软标签存储减少了78倍,在ImageNet-21K上减少了500倍,同时分别提高了高达7.2%和2.8%的精度。这些结果表明,LPQLD在降低存储开销的同时,还能提升模型的性能,具有显著的优势。
🎯 应用场景
该研究成果可应用于各种需要大规模数据集蒸馏的场景,例如模型压缩、联邦学习、持续学习等。通过降低软标签的存储开销,可以更有效地利用数据集蒸馏技术,从而降低计算成本、提高训练效率,并促进人工智能技术在资源受限环境中的应用。
📄 摘要(原文)
Large-scale dataset distillation requires storing auxiliary soft labels that can be 30-40x larger on ImageNet-1K and 200x larger on ImageNet-21K than the condensed images, undermining the goal of dataset compression. We identify two fundamental issues necessitating such extensive labels: (1) insufficient image diversity, where high within-class similarity in synthetic images requires extensive augmentation, and (2) insufficient supervision diversity, where limited variety in supervisory signals during training leads to performance degradation at high compression rates. To address these challenges, we propose Label Pruning and Quantization for Large-scale Distillation (LPQLD). We enhance image diversity via class-wise batching and batch-normalization supervision during synthesis. For supervision diversity, we introduce Label Pruning with Dynamic Knowledge Reuse to improve label-per-augmentation diversity, and Label Quantization with Calibrated Student-Teacher Alignment to improve augmentation-per-image diversity. Our approach reduces soft label storage by 78x on ImageNet-1K and 500x on ImageNet-21K while improving accuracy by up to 7.2% and 2.8%, respectively. Extensive experiments validate the superiority of LPQLD across different network architectures and dataset distillation methods. Code is available at https://github.com/he-y/soft-label-pruning-quantization-for-dataset-distillation.