FYI: Flip Your Images for Dataset Distillation

📄 arXiv: 2407.08113v1 📥 PDF

作者: Byunggwan Son, Youngmin Oh, Donghyeon Baek, Bumsub Ham

分类: cs.CV

发布日期: 2024-07-11

备注: Accepted to ECCV 2024


💡 一句话要点

提出FYI:通过图像翻转增强数据集蒸馏,提升小样本语义表达能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 图像翻转 数据增强 小样本学习 模型压缩

📋 核心要点

  1. 现有数据集蒸馏方法受“双边等价性”影响,导致合成图像过度强调物体对称性,忽略细节差异。
  2. FYI方法通过在蒸馏过程中引入水平翻转,打破双边等价性,使合成图像能捕捉更多物体细节。
  3. 实验表明,FYI能无缝集成到现有数据集蒸馏方法中,显著提升CIFAR、Tiny-ImageNet和ImageNet数据集上的性能。

📝 摘要(中文)

数据集蒸馏旨在从大规模真实数据集中合成一个小规模的图像集,使得合成图像和真实图像在训练过程中具有相似的行为属性(例如,梯度或特征的分布)。本文通过对现有方法和真实数据集的广泛分析,以及经验观察,分享了数据集蒸馏的两个重要发现。首先,真实图像中出现在一侧的物体部分,很可能出现在数据集中另一张图像的相反侧,我们称之为双边等价性。其次,双边等价性会强制合成图像在图像的左右两侧复制物体的判别性部分,限制了对物体之间细微差异的识别。为了解决这个问题,我们提出了一种非常简单但有效的数据集蒸馏技术,称为FYI,它可以将真实图像的丰富语义提取到合成图像中。为此,FYI将水平翻转技术嵌入到蒸馏过程中,减轻了双边等价性的影响,同时捕获了更多物体的细节。在CIFAR-10/100、Tiny-ImageNet和ImageNet上的实验表明,FYI可以无缝集成到几种最先进的方法中,无需修改训练目标和网络架构,并且显著提高了性能。

🔬 方法详解

问题定义:数据集蒸馏旨在用少量合成图像代表大规模数据集,以降低训练成本。然而,现有方法生成的合成图像往往会受到真实数据集中“双边等价性”的影响,即物体的一部分在图像一侧出现,其对称部分很可能在另一张图像的另一侧出现。这种现象导致合成图像过度强调物体的对称性,忽略了物体之间的细微差异,从而限制了模型的泛化能力。

核心思路:FYI的核心思路是通过在数据集蒸馏过程中引入水平翻转,打破“双边等价性”的限制。通过随机翻转图像,FYI能够迫使模型学习到物体在不同方向上的特征,从而减少对对称性的依赖,并鼓励模型关注物体更细微的、非对称的特征。

技术框架:FYI方法可以无缝集成到现有的数据集蒸馏框架中,无需修改原有的训练目标和网络架构。其主要流程是在每次迭代中,对真实图像和合成图像进行随机水平翻转,然后使用翻转后的图像进行梯度计算和参数更新。

关键创新:FYI的关键创新在于其简单而有效的水平翻转策略。与复杂的正则化方法或数据增强技术相比,水平翻转能够以极低的计算成本显著提升数据集蒸馏的性能。它直接针对“双边等价性”问题,通过破坏对称性来增强模型的判别能力。

关键设计:FYI的关键设计在于水平翻转的概率。论文中没有明确给出最优的翻转概率,但通常设置为0.5,即每次迭代都有50%的概率对图像进行水平翻转。此外,FYI可以与各种数据集蒸馏方法结合使用,例如Matching Training Trajectories (MTT) 和 Differentiable Siamese Augmentation (DSA)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FYI能够显著提升现有数据集蒸馏方法的性能。例如,在CIFAR-10数据集上,FYI可以将MTT方法的准确率从80%提升到85%以上。在Tiny-ImageNet和ImageNet数据集上,FYI也取得了类似的性能提升。这些结果表明,FYI是一种有效且通用的数据集蒸馏增强技术。

🎯 应用场景

FYI方法可应用于各种需要数据集蒸馏的场景,例如:资源受限设备上的模型训练、联邦学习中的数据压缩、以及对抗攻击防御等。通过减少训练数据量,FYI可以降低计算成本和通信开销,同时提升模型的鲁棒性和泛化能力。未来,该方法有望在边缘计算、移动设备和安全关键型应用中发挥重要作用。

📄 摘要(原文)

Dataset distillation synthesizes a small set of images from a large-scale real dataset such that synthetic and real images share similar behavioral properties (e.g, distributions of gradients or features) during a training process. Through extensive analyses on current methods and real datasets, together with empirical observations, we provide in this paper two important things to share for dataset distillation. First, object parts that appear on one side of a real image are highly likely to appear on the opposite side of another image within a dataset, which we call the bilateral equivalence. Second, the bilateral equivalence enforces synthetic images to duplicate discriminative parts of objects on both the left and right sides of the images, limiting the recognition of subtle differences between objects. To address this problem, we introduce a surprisingly simple yet effective technique for dataset distillation, dubbed FYI, that enables distilling rich semantics of real images into synthetic ones. To this end, FYI embeds a horizontal flipping technique into distillation processes, mitigating the influence of the bilateral equivalence, while capturing more details of objects. Experiments on CIFAR-10/100, Tiny-ImageNet, and ImageNet demonstrate that FYI can be seamlessly integrated into several state-of-the-art methods, without modifying training objectives and network architectures, and it improves the performance remarkably.