Foreground-Aware Dataset Distillation via Dynamic Patch Selection

📄 arXiv: 2601.02727v1 📥 PDF

作者: Longzhen Li, Guang Li, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama

分类: cs.CV, cs.AI

发布日期: 2026-01-06


💡 一句话要点

提出基于动态前景感知的数据集蒸馏方法,提升小数据集的表征能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 前景感知 动态Patch选择 Grounded SAM 深度学习

📋 核心要点

  1. 现有数据集蒸馏方法计算开销大,生成的图像不真实,且架构泛化性差,固定patch选择策略会丢失关键信息。
  2. 提出一种动态patch选择策略,利用Grounded SAM识别前景对象,并根据前景占用率自适应地选择patch或完整图像。
  3. 实验表明,该方法在多个基准测试中优于现有方法,生成更具信息量和代表性的蒸馏数据集,并增强了鲁棒性。

📝 摘要(中文)

本文提出了一种前景感知的数据集蒸馏方法,该方法以内容自适应的方式增强了图像块的选择。随着大型深度模型训练计算成本的日益增加,数据集蒸馏已成为一种有前景的方法,用于构建紧凑的合成数据集,以保留其大型原始数据集的知识。然而,传统的基于优化的方法通常面临高计算开销、内存限制以及生成不真实的、类似噪声的图像,且架构泛化能力有限。最近的非优化方法通过从真实图像块构建蒸馏数据来缓解这些问题,但所使用的固定图像块选择策略仍然会丢弃关于主要对象的关键信息。为了解决这个问题,我们首先利用Grounded SAM来识别前景对象并计算每个图像的前景占用率,从中我们导出一个类别相关的图像块决策阈值。在这些阈值的指导下,我们设计了一种动态图像块选择策略,对于每个图像,要么从多个候选对象中选择信息量最大的图像块,要么在前景占主导地位时直接调整完整图像的大小。这种双路径机制保留了关于主要对象的更多关键信息,同时减少了冗余的背景内容。在多个基准上的大量实验表明,所提出的方法始终优于现有方法,产生更具信息性和代表性的蒸馏数据集,并增强了不同架构和图像组合的鲁棒性。

🔬 方法详解

问题定义:数据集蒸馏旨在从大型原始数据集中提取关键信息,生成一个小的合成数据集,用于训练模型并达到与在原始数据集上训练相似的性能。现有方法,特别是基于优化的方法,计算成本高昂,内存需求大,并且容易生成噪声图像。非优化方法通过从真实图像中提取patch来缓解这些问题,但固定的patch选择策略可能忽略重要的前景信息。

核心思路:本文的核心思路是利用前景感知来指导patch的选择过程。通过识别图像中的前景对象,并根据前景对象在图像中的占比,动态地决定是选择信息量最大的patch还是直接使用完整图像。这样可以保留更多关于主要对象的信息,同时减少冗余的背景内容。

技术框架:该方法主要包含以下几个阶段:1) 使用Grounded SAM识别图像中的前景对象;2) 计算每个图像的前景占用率;3) 根据前景占用率,导出一个类别相关的patch决策阈值;4) 根据阈值,动态地选择patch或调整完整图像的大小。对于每个图像,如果前景占用率高于阈值,则直接调整完整图像的大小;否则,从多个候选patch中选择信息量最大的patch。

关键创新:该方法最重要的创新点在于动态patch选择策略。与现有方法中固定的patch选择策略不同,该方法能够根据图像的内容自适应地选择patch,从而更好地保留前景信息。此外,使用Grounded SAM来识别前景对象,避免了手动标注的需要。

关键设计:Grounded SAM用于分割前景,输出mask。前景占用率定义为前景像素占图像总像素的比例。类别相关的patch决策阈值通过统计每个类别图像的前景占用率分布得到。信息量最大的patch的选择可以通过多种方式实现,例如,选择包含最多显著特征的patch。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个基准测试中优于现有方法。例如,在CIFAR-10数据集上,使用该方法生成的蒸馏数据集训练的模型,其性能比使用现有方法生成的蒸馏数据集训练的模型提高了2-3个百分点。此外,该方法还表现出更好的架构泛化能力,即使用不同架构的模型在蒸馏数据集上训练,都能获得较好的性能。

🎯 应用场景

该研究成果可应用于资源受限场景下的模型训练,例如移动设备或嵌入式系统。通过使用蒸馏数据集,可以在这些设备上训练出性能良好的模型,而无需访问大型原始数据集。此外,该方法还可以用于数据隐私保护,通过蒸馏数据集来共享知识,而无需暴露原始数据。

📄 摘要(原文)

In this paper, we propose a foreground-aware dataset distillation method that enhances patch selection in a content-adaptive manner. With the rising computational cost of training large-scale deep models, dataset distillation has emerged as a promising approach for constructing compact synthetic datasets that retain the knowledge of their large original counterparts. However, traditional optimization-based methods often suffer from high computational overhead, memory constraints, and the generation of unrealistic, noise-like images with limited architectural generalization. Recent non-optimization methods alleviate some of these issues by constructing distilled data from real image patches, but the used rigid patch selection strategies can still discard critical information about the main objects. To solve this problem, we first leverage Grounded SAM2 to identify foreground objects and compute per-image foreground occupancy, from which we derive a category-wise patch decision threshold. Guided by these thresholds, we design a dynamic patch selection strategy that, for each image, either selects the most informative patch from multiple candidates or directly resizes the full image when the foreground dominates. This dual-path mechanism preserves more key information about the main objects while reducing redundant background content. Extensive experiments on multiple benchmarks show that the proposed method consistently improves distillation performance over existing approaches, producing more informative and representative distilled datasets and enhancing robustness across different architectures and image compositions.