Increasing the Utility of Synthetic Images through Chamfer Guidance

📄 arXiv: 2508.10631v2 📥 PDF

作者: Nicola Dall'Asen, Xiaofeng Zhang, Reyhane Askari Hemmat, Melissa Hall, Jakob Verbeek, Adriana Romero-Soriano, Michal Drozdzal

分类: cs.CV

发布日期: 2025-08-14 (更新: 2025-10-21)

备注: Accepted to NeurIPS 2025


💡 一句话要点

提出Chamfer Guidance,提升合成图像的质量和多样性,增强下游任务性能。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 合成图像生成 数据增强 Chamfer距离 生成模型引导 图像多样性 图像质量 小样本学习

📋 核心要点

  1. 现有条件图像生成模型在生成质量提升的同时,牺牲了生成多样性,限制了其作为合成训练数据的效用。
  2. 提出Chamfer Guidance,利用少量真实样本图像来引导合成数据的生成,从而提升合成数据的质量和多样性。
  3. 实验表明,该方法在ImageNet-1k等数据集上,能够提升生成数据的质量和多样性,并提高下游分类任务的性能。

📝 摘要(中文)

条件图像生成模型在生成无限量的合成训练数据方面具有巨大潜力。然而,生成质量的最新进展往往以牺牲生成多样性为代价,限制了这些模型作为合成训练数据来源的效用。虽然已经引入了基于引导的方法来提高生成数据的效用,但它们通常忽略了合成数据和真实数据之间潜在的分布差异。本文提出了一种名为Chamfer Guidance的免训练引导方法,该方法利用少量的真实样本图像来表征合成数据的质量和多样性。实验表明,通过利用所提出的Chamfer Guidance,可以在保持或提高ImageNet-1k和标准地理多样性基准上的生成质量的同时,提高生成数据相对于真实图像数据集的多样性。该方法仅使用2个真实样本图像即可实现最先进的小样本性能,在精度方面达到96.4%,在分布覆盖率方面达到86.4%,当使用32个真实图像时,分别提高到97.5%和92.7%。通过在合成数据上训练下游图像分类器,展示了Chamfer Guidance生成的优势,在同分布数据上实现了高达15%的精度提升,在异分布数据上实现了高达16%的精度提升。此外,该方法不需要使用无条件模型,因此在采样时,相对于基于分类器自由引导的方法,FLOPs减少了31%。

🔬 方法详解

问题定义:现有条件图像生成模型生成的合成图像,虽然质量较高,但多样性不足,与真实数据存在分布差异,导致在下游任务中的表现不佳。现有的引导方法往往忽略了这种分布差异,或者需要大量的计算资源。

核心思路:利用少量真实样本图像作为引导,通过Chamfer距离来衡量合成图像与真实图像之间的相似度和多样性。Chamfer距离能够有效地捕捉图像之间的结构信息,从而引导生成模型生成更接近真实数据分布的图像。

技术框架:Chamfer Guidance方法主要包含以下几个步骤:1) 从真实数据集中选取少量样本图像作为引导图像;2) 使用条件图像生成模型生成合成图像;3) 计算合成图像与引导图像之间的Chamfer距离;4) 利用Chamfer距离来调整生成模型的参数,从而提高合成图像的质量和多样性。该方法不需要重新训练生成模型,可以在采样阶段直接应用。

关键创新:该方法的核心创新在于使用Chamfer距离作为引导信号,能够有效地衡量合成图像与真实图像之间的相似度和多样性,从而引导生成模型生成更接近真实数据分布的图像。与现有方法相比,该方法不需要大量的计算资源,只需要少量的真实样本图像即可实现较好的效果。

关键设计:Chamfer距离的计算方式:对于两张点云图像A和B,Chamfer距离定义为A中的每个点到B中最近点的平均距离,加上B中的每个点到A中最近点的平均距离。在实验中,作者使用了预训练的特征提取器来提取图像的特征,并将特征图转换为点云。引导图像的数量是一个重要的参数,作者通过实验发现,使用少量的引导图像即可实现较好的效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Chamfer Guidance方法在ImageNet-1k数据集上,仅使用2个真实样本图像即可达到96.4%的精度和86.4%的分布覆盖率,使用32个真实图像时,精度和分布覆盖率分别提高到97.5%和92.7%。在下游分类任务中,使用Chamfer Guidance生成的合成数据训练的模型,在同分布数据上精度提升高达15%,在异分布数据上精度提升高达16%。此外,该方法在采样时,FLOPs比基于分类器自由引导的方法减少了31%。

🎯 应用场景

该研究成果可广泛应用于数据增强、图像生成、目标检测、图像分割等领域。通过生成高质量、高多样性的合成数据,可以有效解决数据稀缺问题,提升模型在各种实际应用场景中的性能和泛化能力。该方法在自动驾驶、医疗影像分析、工业质检等领域具有重要的应用价值。

📄 摘要(原文)

Conditional image generative models hold considerable promise to produce infinite amounts of synthetic training data. Yet, recent progress in generation quality has come at the expense of generation diversity, limiting the utility of these models as a source of synthetic training data. Although guidance-based approaches have been introduced to improve the utility of generated data by focusing on quality or diversity, the (implicit or explicit) utility functions oftentimes disregard the potential distribution shift between synthetic and real data. In this work, we introduce Chamfer Guidance: a training-free guidance approach which leverages a handful of real exemplar images to characterize the quality and diversity of synthetic data. We show that by leveraging the proposed Chamfer Guidance, we can boost the diversity of the generations w.r.t. a dataset of real images while maintaining or improving the generation quality on ImageNet-1k and standard geo-diversity benchmarks. Our approach achieves state-of-the-art few-shot performance with as little as 2 exemplar real images, obtaining 96.4% in terms of precision, and 86.4% in terms of distributional coverage, which increase to 97.5% and 92.7%, respectively, when using 32 real images. We showcase the benefits of the Chamfer Guidance generation by training downstream image classifiers on synthetic data, achieving accuracy boost of up to 15% for in-distribution over the baselines, and up to 16% in out-of-distribution. Furthermore, our approach does not require using the unconditional model, and thus obtains a 31% reduction in FLOPs w.r.t. classifier-free-guidance-based approaches at sampling time.