Data Augmentation for Image Classification using Generative AI

📄 arXiv: 2409.00547v1 📥 PDF

作者: Fazle Rahat, M Shifat Hossain, Md Rubel Ahmed, Sumit Kumar Jha, Rickard Ewetz

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-08-31

备注: 19 pages, 15 figures, 4 tables


💡 一句话要点

提出AGA框架,利用生成式AI进行图像分类数据增强,提升模型泛化性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据增强 生成式AI 图像分类 扩散模型 大型语言模型 分割模型 提示工程

📋 核心要点

  1. 现有生成式数据增强方法易引入伪影,导致模型性能下降,泛化能力不足。
  2. AGA框架结合LLM、扩散模型和分割模型,保证前景真实性,增强背景多样性。
  3. 实验表明,AGA在多个数据集上显著提升了图像分类模型的准确率和泛化能力。

📝 摘要(中文)

本文提出了一种名为自动生成数据增强(AGA)的框架,旨在利用生成式AI模型解决图像分类中数据增强的问题。传统数据增强方法主要依赖旋转、平移和缩放等操作,而基于生成模型的增强方法容易出现主体损坏和引入无关伪影等问题。AGA框架结合了大型语言模型(LLM)、扩散模型和分割模型,在保证前景真实性的同时,实现背景多样化。该方法包括基于分割和超类别的对象提取、利用提示分解实现组合复杂性的提示多样性以及仿射主体操作。在ImageNet、CUB和iWildCam三个数据集上的实验结果表明,与基线模型相比,AGA在同分布数据和异分布数据上的准确率分别提高了15.6%和23.5%,SIC评分提高了64.3%。

🔬 方法详解

问题定义:论文旨在解决图像分类任务中数据增强的问题。传统的数据增强方法,如旋转、平移等,多样性有限。而利用生成模型进行数据增强时,容易出现主体信息损坏,或者引入与主体无关的噪声和伪影,从而影响模型的训练效果和泛化能力。

核心思路:论文的核心思路是利用分割模型提取图像中的前景对象,然后利用大型语言模型生成多样化的背景提示,最后使用扩散模型将前景对象与生成的背景融合,从而实现数据增强。通过这种方式,可以保证前景对象的真实性,同时增加背景的多样性。

技术框架:AGA框架主要包含三个模块:1) 对象提取模块:使用分割模型提取图像中的前景对象,并根据超类别进行分类。2) 提示生成模块:利用大型语言模型,基于对象类别生成多样化的背景提示,并通过提示分解增加提示的组合复杂性。3) 图像生成模块:使用扩散模型,将提取的前景对象与生成的背景提示融合,生成新的图像。

关键创新:AGA的关键创新在于结合了分割模型、大型语言模型和扩散模型,实现了一种可控的数据增强方法。与现有方法相比,AGA能够更好地保留前景对象的真实性,同时增加背景的多样性,从而提高模型的泛化能力。此外,提示分解策略能够有效增加提示的多样性,避免生成相似的背景。

关键设计:在对象提取模块中,使用了预训练的分割模型,并根据超类别对对象进行分类。在提示生成模块中,使用了大型语言模型,并设计了提示分解策略,将提示分解为多个部分,然后进行组合,从而增加提示的多样性。在图像生成模块中,使用了扩散模型,并对前景对象进行了仿射变换,以增加图像的真实感。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AGA框架在ImageNet、CUB和iWildCam三个数据集上均取得了显著的性能提升。与基线模型相比,AGA在同分布数据上的准确率提高了15.6%,在异分布数据上的准确率提高了23.5%,SIC评分提高了64.3%。这些结果表明,AGA能够有效提高模型的泛化能力,尤其是在面对未知的异分布数据时。

🎯 应用场景

该研究成果可广泛应用于图像分类任务中,尤其是在数据量有限或数据分布不平衡的情况下。例如,在医学图像分析、遥感图像识别、野生动物识别等领域,可以利用AGA框架生成更多样化的训练数据,从而提高模型的准确率和泛化能力。此外,该方法还可以应用于其他计算机视觉任务,如目标检测和图像分割。

📄 摘要(原文)

Scaling laws dictate that the performance of AI models is proportional to the amount of available data. Data augmentation is a promising solution to expanding the dataset size. Traditional approaches focused on augmentation using rotation, translation, and resizing. Recent approaches use generative AI models to improve dataset diversity. However, the generative methods struggle with issues such as subject corruption and the introduction of irrelevant artifacts. In this paper, we propose the Automated Generative Data Augmentation (AGA). The framework combines the utility of large language models (LLMs), diffusion models, and segmentation models to augment data. AGA preserves foreground authenticity while ensuring background diversity. Specific contributions include: i) segment and superclass based object extraction, ii) prompt diversity with combinatorial complexity using prompt decomposition, and iii) affine subject manipulation. We evaluate AGA against state-of-the-art (SOTA) techniques on three representative datasets, ImageNet, CUB, and iWildCam. The experimental evaluation demonstrates an accuracy improvement of 15.6% and 23.5% for in and out-of-distribution data compared to baseline models, respectively. There is also a 64.3% improvement in SIC score compared to the baselines.