Efficient Multimodal Dataset Distillation via Generative Models

📄 arXiv: 2509.15472v2 📥 PDF

作者: Zhenghao Zhao, Haoxuan Wang, Junyi Wu, Yuzhang Shang, Gaowen Liu, Yan Yan

分类: cs.CV

发布日期: 2025-09-18 (更新: 2025-09-25)


💡 一句话要点

提出EDGE:一种基于生成模型的高效多模态数据集蒸馏方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据集蒸馏 多模态学习 生成模型 对比学习 图像-文本检索 高效训练 数据合成

📋 核心要点

  1. 现有方法依赖匹配训练轨迹算法,计算资源需求高,蒸馏时间长,限制了多模态数据集蒸馏的应用。
  2. EDGE通过生成模型进行蒸馏,引入双向对比损失和多样性损失,提升生成图像与文本的相关性和样本多样性。
  3. 实验表明,EDGE在Flickr30K、COCO和CC3M数据集上表现优异,速度比现有方法快18倍。

📝 摘要(中文)

数据集蒸馏旨在从大型数据集中合成一个小规模数据集,使得在该数据集上训练的模型在原始数据集上表现良好。随着大型语言模型和多模态大型语言模型的蓬勃发展,多模态数据集(特别是图像-文本数据集)的重要性日益增加。然而,现有的多模态数据集蒸馏方法受到匹配训练轨迹算法的限制,这显著增加了计算资源需求,并需要数天才能完成蒸馏。本文提出了EDGE,一种用于高效多模态数据集蒸馏的生成式蒸馏方法。具体来说,我们识别了使用生成模型蒸馏多模态数据集的两个关键挑战:1)生成的图像和标题之间缺乏相关性;2)生成的样本之间缺乏多样性。为了解决上述问题,我们提出了一种新的生成模型训练工作流程,该流程具有双向对比损失和多样性损失。此外,我们提出了一种标题合成策略,通过引入更多的文本信息来进一步提高文本到图像的检索性能。我们的方法在Flickr30K、COCO和CC3M数据集上进行了评估,与现有方法相比,表现出卓越的性能和效率。值得注意的是,我们的方法比最先进的方法快18倍。

🔬 方法详解

问题定义:现有的多模态数据集蒸馏方法,如基于匹配训练轨迹的方法,计算成本高昂,需要大量的计算资源和时间,难以应用于大规模数据集。这些方法的痛点在于,需要多次训练模型以匹配原始数据集的训练轨迹,导致效率低下。

核心思路:本文的核心思路是利用生成模型直接生成蒸馏数据集,避免了昂贵的训练轨迹匹配过程。通过优化生成模型的训练目标,使其生成的图像和文本具有高度相关性和多样性,从而保证在蒸馏数据集上训练的模型能够泛化到原始数据集。

技术框架:EDGE的整体框架包括以下几个主要模块:1) 生成模型:使用生成对抗网络(GAN)或变分自编码器(VAE)等生成模型,用于生成图像和文本。2) 双向对比损失:用于增强生成图像和文本之间的相关性,确保生成的图像能够准确地反映文本描述的内容,反之亦然。3) 多样性损失:用于鼓励生成模型生成更多样化的样本,避免模式崩塌,提高蒸馏数据集的代表性。4) 标题合成策略:通过引入更多的文本信息,进一步提高文本到图像的检索性能。

关键创新:EDGE的关键创新在于其生成式蒸馏方法,以及针对多模态数据特点设计的双向对比损失和多样性损失。与现有方法相比,EDGE无需进行耗时的训练轨迹匹配,而是直接生成蒸馏数据集,显著提高了效率。此外,双向对比损失和多样性损失能够有效解决生成图像和文本之间缺乏相关性和样本多样性不足的问题。

关键设计:双向对比损失的设计包括图像到文本的对比损失和文本到图像的对比损失,分别用于衡量生成图像与对应文本描述的相似度和生成文本描述与对应图像的相似度。多样性损失可以使用判别器来区分生成的样本和真实样本,或者使用基于距离的度量来鼓励生成更多样化的样本。标题合成策略可以使用数据增强技术,例如随机插入、删除或替换文本中的单词,以生成更多的文本信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EDGE在Flickr30K、COCO和CC3M数据集上取得了显著的性能提升,并且效率远超现有方法。实验结果表明,EDGE比最先进的方法快18倍,同时保持甚至提升了模型在原始数据集上的性能。这表明EDGE是一种高效且有效的多模态数据集蒸馏方法。

🎯 应用场景

EDGE可应用于各种需要高效多模态数据处理的场景,例如:快速训练图像-文本检索模型、加速多模态机器学习模型的开发周期、降低大规模多模态数据存储和传输成本。该方法在资源受限的环境下尤为有价值,能够帮助研究人员和开发者更高效地利用多模态数据。

📄 摘要(原文)

Dataset distillation aims to synthesize a small dataset from a large dataset, enabling the model trained on it to perform well on the original dataset. With the blooming of large language models and multimodal large language models, the importance of multimodal datasets, particularly image-text datasets, has grown significantly. However, existing multimodal dataset distillation methods are constrained by the Matching Training Trajectories algorithm, which significantly increases the computing resource requirement, and takes days to process the distillation. In this work, we introduce EDGE, a generative distillation method for efficient multimodal dataset distillation. Specifically, we identify two key challenges of distilling multimodal datasets with generative models: 1) The lack of correlation between generated images and captions. 2) The lack of diversity among generated samples. To address the aforementioned issues, we propose a novel generative model training workflow with a bi-directional contrastive loss and a diversity loss. Furthermore, we propose a caption synthesis strategy to further improve text-to-image retrieval performance by introducing more text information. Our method is evaluated on Flickr30K, COCO, and CC3M datasets, demonstrating superior performance and efficiency compared to existing approaches. Notably, our method achieves results 18x faster than the state-of-the-art method.