Trust-Aware Diversion for Data-Effective Distillation

📄 arXiv: 2502.05027v1 📥 PDF

作者: Zhuojie Wu, Yanbin Liu, Xin Shen, Xiaofeng Cao, Xin Yu

分类: cs.CV

发布日期: 2025-02-07


💡 一句话要点

提出Trust-Aware Diversion方法,解决带噪声标签的数据集蒸馏问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 噪声标签 信任感知 双循环优化 对抗训练

📋 核心要点

  1. 现有数据集蒸馏方法假设数据标签完美,忽略了真实世界中普遍存在的错误标签问题。
  2. TAD方法通过双循环优化,将数据划分为可信和不可信空间,并迭代优化,提升蒸馏效果。
  3. 实验表明,TAD在CIFAR10、CIFAR100和Tiny ImageNet等数据集上,显著提升了现有方法的性能。

📝 摘要(中文)

数据集蒸馏将大型数据集压缩成一个小的合成子集,保留关键信息。现有方法假设所有样本都被完美标注,限制了其在错误标签普遍存在的现实世界中的应用。这些错误标注的样本将不可信的信息引入数据集,误导数据集蒸馏中的模型优化。为了解决这个问题,我们提出了一种信任感知转移(Trust-Aware Diversion,TAD)数据集蒸馏方法。我们提出的TAD引入了一个迭代双循环优化框架,用于数据有效蒸馏。具体来说,外循环将数据划分为可信和不可信空间,将蒸馏重定向到可信样本,以保证蒸馏过程中的信任。这一步最大限度地减少了错误标注样本对数据集蒸馏的影响。内循环通过重新校准不可信样本来最大化蒸馏目标,从而将它们转化为有价值的蒸馏样本。这种双循环迭代地细化和补偿彼此,逐渐扩大可信空间并缩小不可信空间。实验表明,我们的方法可以显著提高现有数据集蒸馏方法在三个广泛使用的基准数据集(CIFAR10、CIFAR100和Tiny ImageNet)在三种具有挑战性的错误标注设置(对称、非对称和真实世界)下的性能。

🔬 方法详解

问题定义:论文旨在解决数据集蒸馏在存在噪声标签情况下的性能下降问题。现有数据集蒸馏方法通常假设训练数据具有完美的标签,然而在实际应用中,数据集往往包含一定比例的错误标注样本。这些噪声标签会误导蒸馏过程,导致生成的合成数据集质量下降,最终影响蒸馏模型的性能。

核心思路:论文的核心思路是将数据集划分为“可信”和“不可信”两个空间,并采用双循环优化策略。外循环负责识别和利用可信样本进行蒸馏,以保证蒸馏过程的可靠性;内循环则尝试重新校准不可信样本,使其能够为蒸馏过程提供有用的信息。通过内外循环的迭代优化,逐步扩大可信空间,提高合成数据集的质量。

技术框架:TAD方法采用双循环优化框架。外循环的目标是最小化可信样本上的蒸馏损失,同时最大化不可信样本上的蒸馏损失。这可以通过一个对抗训练过程实现,其中一个判别器用于区分可信和不可信样本,一个生成器用于生成合成数据集。内循环的目标是重新校准不可信样本的标签,使其更接近真实标签。这可以通过一个标签修正模块实现,该模块利用可信样本的信息来预测不可信样本的真实标签。

关键创新:TAD方法的关键创新在于其信任感知的蒸馏策略。通过将数据集划分为可信和不可信空间,并分别进行处理,TAD方法能够有效地减轻噪声标签对蒸馏过程的影响。此外,TAD方法采用双循环优化框架,能够迭代地细化可信空间和不可信空间,从而提高合成数据集的质量。

关键设计:TAD方法的关键设计包括:1) 可信度评分函数,用于评估样本的可信程度;2) 对抗训练损失函数,用于区分可信和不可信样本;3) 标签修正模块,用于重新校准不可信样本的标签。具体来说,可信度评分函数可以基于样本的预测置信度或与其他样本的一致性来计算。对抗训练损失函数可以采用标准的GAN损失函数。标签修正模块可以采用基于邻域信息的标签传播算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TAD方法在CIFAR10、CIFAR100和Tiny ImageNet数据集上,针对对称、非对称和真实世界噪声标签,均显著提升了现有数据集蒸馏方法的性能。例如,在CIFAR10数据集上,TAD方法相比于基线方法,在不同噪声比例下,平均提升了5%以上的分类精度。这些结果验证了TAD方法在处理噪声标签数据集蒸馏问题上的有效性。

🎯 应用场景

该研究成果可应用于各种需要数据集蒸馏的场景,尤其是在数据标注质量不高的情况下。例如,在自动驾驶、医疗影像分析等领域,数据标注成本高昂且容易出错,利用该方法可以有效降低对高质量标注数据的依赖,提高模型训练效率和泛化能力。此外,该方法还可以用于数据隐私保护,通过蒸馏生成具有代表性的合成数据集,避免直接使用原始敏感数据。

📄 摘要(原文)

Dataset distillation compresses a large dataset into a small synthetic subset that retains essential information. Existing methods assume that all samples are perfectly labeled, limiting their real-world applications where incorrect labels are ubiquitous. These mislabeled samples introduce untrustworthy information into the dataset, which misleads model optimization in dataset distillation. To tackle this issue, we propose a Trust-Aware Diversion (TAD) dataset distillation method. Our proposed TAD introduces an iterative dual-loop optimization framework for data-effective distillation. Specifically, the outer loop divides data into trusted and untrusted spaces, redirecting distillation toward trusted samples to guarantee trust in the distillation process. This step minimizes the impact of mislabeled samples on dataset distillation. The inner loop maximizes the distillation objective by recalibrating untrusted samples, thus transforming them into valuable ones for distillation. This dual-loop iteratively refines and compensates for each other, gradually expanding the trusted space and shrinking the untrusted space. Experiments demonstrate that our method can significantly improve the performance of existing dataset distillation methods on three widely used benchmarks (CIFAR10, CIFAR100, and Tiny ImageNet) in three challenging mislabeled settings (symmetric, asymmetric, and real-world).