Contrastive Learning-Enhanced Trajectory Matching for Small-Scale Dataset Distillation

📄 arXiv: 2505.15267v2 📥 PDF

作者: Wenmin Li, Shunsuke Sakai, Tatsuhito Hasegawa

分类: cs.CV

发布日期: 2025-05-21 (更新: 2025-05-22)

备注: Under review


💡 一句话要点

提出对比学习增强的轨迹匹配方法,解决小规模数据集蒸馏问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 对比学习 轨迹匹配 小样本学习 合成数据

📋 核心要点

  1. 现有轨迹匹配数据集蒸馏方法在样本极度稀缺时,难以保留足够的语义信息。
  2. 通过在图像合成中融入对比学习,显式最大化实例级特征区分,生成更具信息量的合成样本。
  3. 实验表明,该方法显著提升了极小规模合成数据集训练模型的性能,并提高了合成图像的视觉保真度。

📝 摘要(中文)

在资源受限的环境中部署机器学习模型,例如边缘设备或快速原型设计,越来越需要将大型数据集提炼成更小但信息量丰富的合成数据集。现有的数据集蒸馏技术,特别是轨迹匹配方法,通过优化合成数据,使模型在合成样本上的训练轨迹与在真实数据上的训练轨迹相匹配。虽然这些方法在中等规模的合成数据集上表现出有效性,但在极端样本稀缺的情况下,它们无法充分保留语义丰富性。为了解决这个限制,我们提出了一种新的数据集蒸馏方法,该方法在图像合成过程中集成了对比学习。通过显式地最大化实例级别的特征区分,我们的方法产生更具信息性和多样性的合成样本,即使数据集大小受到显著限制。实验结果表明,结合对比学习可以显著提高在极小规模合成数据集上训练的模型的性能。这种集成不仅指导了更有效的特征表示,而且显著提高了合成图像的视觉保真度。实验结果表明,我们的方法在现有蒸馏技术上取得了显著的性能提升,尤其是在合成数据极其有限的情况下。

🔬 方法详解

问题定义:论文旨在解决在极小规模数据集上进行有效数据集蒸馏的问题。现有的轨迹匹配方法在合成数据集规模非常小的情况下,无法保留足够的语义信息,导致模型性能下降。这些方法难以生成具有足够区分性的合成样本,使得模型无法学习到有效的特征表示。

核心思路:论文的核心思路是在数据集蒸馏过程中引入对比学习,通过最大化合成样本的实例级特征区分,生成更具信息量和多样性的合成数据。对比学习能够促使模型学习到更鲁棒和具有区分性的特征表示,从而弥补小规模数据集带来的信息不足。

技术框架:该方法在传统的轨迹匹配框架中加入了对比学习模块。整体流程包括:1) 初始化合成数据集;2) 使用合成数据集和真实数据集分别训练模型;3) 计算模型在两个数据集上的训练轨迹差异;4) 使用对比学习损失函数优化合成数据集,使其生成的特征具有更好的区分性;5) 重复步骤2-4,直到收敛。

关键创新:该方法最重要的创新点是将对比学习融入到数据集蒸馏过程中,显式地增强了合成样本的特征区分性。与传统的轨迹匹配方法相比,该方法能够生成更具信息量和多样性的合成样本,从而提升模型在小规模数据集上的性能。

关键设计:关键设计包括:1) 使用InfoNCE损失函数作为对比学习的损失函数,鼓励模型学习到实例级别的区分性特征;2) 精心设计了对比学习模块的网络结构,使其能够有效地提取和区分合成样本的特征;3) 调整了对比学习损失在总损失函数中的权重,以平衡轨迹匹配和特征区分之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在极小规模数据集上显著优于现有的数据集蒸馏技术。例如,在CIFAR-10数据集上,使用该方法生成的10个样本训练的模型,其性能优于使用其他方法生成的相同数量样本训练的模型。此外,该方法还提高了合成图像的视觉保真度,使得生成的图像更接近真实图像。

🎯 应用场景

该研究成果可应用于资源受限的边缘设备、快速原型设计、以及隐私保护等领域。例如,在边缘设备上部署机器学习模型时,可以使用该方法将大型数据集蒸馏成极小规模的合成数据集,从而降低存储和计算成本。在隐私保护场景下,可以使用合成数据集代替真实数据进行模型训练,避免泄露敏感信息。该方法还有助于加速新模型的开发和部署,降低数据收集和标注的成本。

📄 摘要(原文)

Deploying machine learning models in resource-constrained environments, such as edge devices or rapid prototyping scenarios, increasingly demands distillation of large datasets into significantly smaller yet informative synthetic datasets. Current dataset distillation techniques, particularly Trajectory Matching methods, optimize synthetic data so that the model's training trajectory on synthetic samples mirrors that on real data. While demonstrating efficacy on medium-scale synthetic datasets, these methods fail to adequately preserve semantic richness under extreme sample scarcity. To address this limitation, we propose a novel dataset distillation method integrating contrastive learning during image synthesis. By explicitly maximizing instance-level feature discrimination, our approach produces more informative and diverse synthetic samples, even when dataset sizes are significantly constrained. Experimental results demonstrate that incorporating contrastive learning substantially enhances the performance of models trained on very small-scale synthetic datasets. This integration not only guides more effective feature representation but also significantly improves the visual fidelity of the synthesized images. Experimental results demonstrate that our method achieves notable performance improvements over existing distillation techniques, especially in scenarios with extremely limited synthetic data.