Not All Instances Are Equally Valuable: Towards Influence-Weighted Dataset Distillation

📄 arXiv: 2510.27253v1 📥 PDF

作者: Qiyan Deng, Changqian Zheng, Lianpeng Qiao, Yuping Wang, Chengliang Chai, Lei Cao

分类: cs.LG, cs.AI

发布日期: 2025-10-31


💡 一句话要点

提出IWD:一种基于影响函数的数据集蒸馏方法,提升模型性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 影响函数 数据质量 模型压缩 联邦学习

📋 核心要点

  1. 现有数据集蒸馏方法忽略了数据集中实例质量的差异,可能导致模型性能下降。
  2. IWD框架利用影响函数为每个实例分配权重,从而区分有益和有害数据,提升蒸馏质量。
  3. 实验表明,IWD能有效提高蒸馏数据集的质量,并带来高达7.8%的准确率提升。

📝 摘要(中文)

数据集蒸馏将大型数据集压缩成合成子集,在显著降低存储和计算成本的同时,实现与在完整数据集上训练相当的性能。现有数据集蒸馏方法大多假设所有真实样本对该过程的贡献相同。然而,现实世界的数据集包含信息丰富、冗余甚至有害的实例,直接蒸馏完整数据集而不考虑数据质量会降低模型性能。本文提出了一种基于影响加权的蒸馏方法IWD,该框架利用影响函数来显式地考虑蒸馏过程中数据质量。IWD基于每个实例对蒸馏目标的影响程度,为其分配自适应权重,优先考虑有益数据,同时降低不太有用或有害数据的重要性。由于其模块化设计,IWD可以无缝集成到各种数据集蒸馏框架中。实验结果表明,集成IWD可以提高蒸馏数据集的质量并增强模型性能,准确率提升高达7.8%。

🔬 方法详解

问题定义:现有数据集蒸馏方法通常平等对待所有训练样本,忽略了真实数据集中样本质量的差异。一些样本可能包含噪声、冗余信息,甚至对模型训练产生负面影响。直接对包含这些低质量样本的完整数据集进行蒸馏,会降低蒸馏数据集的质量,进而影响模型的泛化能力。

核心思路:IWD的核心思想是利用影响函数来评估每个训练样本对蒸馏目标的影响程度。影响函数能够估计移除或修改某个训练样本对模型性能的影响。通过计算每个样本的影响值,IWD可以为样本分配自适应权重,从而在蒸馏过程中优先考虑有益样本,降低有害样本的权重。

技术框架:IWD是一个模块化的框架,可以集成到现有的数据集蒸馏方法中。其主要流程包括:1) 使用原始数据集训练一个初始模型;2) 使用训练好的模型计算每个训练样本的影响函数值;3) 基于影响函数值,为每个样本分配权重;4) 使用加权后的数据集进行蒸馏,生成合成数据集。

关键创新:IWD的关键创新在于利用影响函数来显式地建模数据质量,并将其融入到数据集蒸馏过程中。与现有方法不同,IWD能够自适应地调整每个样本的贡献,从而提高蒸馏数据集的质量。这种基于数据质量的加权蒸馏方法能够更有效地利用原始数据集中的信息,并生成更具代表性的合成数据集。

关键设计:IWD的关键设计包括:1) 影响函数的选择:可以使用不同的影响函数估计方法,例如Hessian inverse approximation;2) 权重分配策略:可以根据影响函数值采用不同的权重分配策略,例如线性缩放、指数缩放等;3) 蒸馏目标函数:IWD可以与不同的蒸馏目标函数结合使用,例如匹配原始模型的输出、匹配梯度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IWD能够显著提高数据集蒸馏的性能。在图像分类任务上,集成IWD的蒸馏方法在CIFAR-10和SVHN数据集上分别取得了高达7.8%和5.2%的准确率提升。此外,IWD还能够提高蒸馏数据集的鲁棒性,使其对对抗攻击更具抵抗力。与现有数据集蒸馏方法相比,IWD能够生成更高质量的合成数据集,并提升模型的泛化能力。

🎯 应用场景

IWD可应用于各种需要数据集蒸馏的场景,例如:模型压缩、联邦学习、数据隐私保护等。在资源受限的设备上部署大型模型时,可以使用IWD对训练数据进行蒸馏,从而降低存储和计算成本。在联邦学习中,IWD可以用于生成具有代表性的全局数据集,从而提高模型的泛化能力。在数据隐私保护方面,IWD可以用于生成合成数据集,从而避免直接暴露原始数据。

📄 摘要(原文)

Dataset distillation condenses large datasets into synthetic subsets, achieving performance comparable to training on the full dataset while substantially reducing storage and computation costs. Most existing dataset distillation methods assume that all real instances contribute equally to the process. In practice, real-world datasets contain both informative and redundant or even harmful instances, and directly distilling the full dataset without considering data quality can degrade model performance. In this work, we present Influence-Weighted Distillation IWD, a principled framework that leverages influence functions to explicitly account for data quality in the distillation process. IWD assigns adaptive weights to each instance based on its estimated impact on the distillation objective, prioritizing beneficial data while downweighting less useful or harmful ones. Owing to its modular design, IWD can be seamlessly integrated into diverse dataset distillation frameworks. Our empirical results suggest that integrating IWD tends to improve the quality of distilled datasets and enhance model performance, with accuracy gains of up to 7.8%.