FocusDD: Real-World Scene Infusion for Robust Dataset Distillation
作者: Youbing Hu, Yun Cheng, Olga Saukh, Firat Ozdemir, Anqi Lu, Zhiqiang Cao, Zhijun Li
分类: cs.CV, cs.AI
发布日期: 2025-01-11
💡 一句话要点
FocusDD:通过真实场景融合实现鲁棒数据集蒸馏,提升小样本训练性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 数据集蒸馏 视觉Transformer 关键信息提取 真实场景融合 目标检测 小样本学习 图像分类
📋 核心要点
- 现有数据集蒸馏方法难以处理大规模、高分辨率数据集,限制了其在实际场景中的应用。
- FocusDD通过ViT提取关键图像块并合成蒸馏图像,同时结合原始图像下采样视图增强泛化性。
- 实验表明,FocusDD在ImageNet-1K和COCO2017上均优于现有方法,并首次应用于目标检测任务。
📝 摘要(中文)
数据集蒸馏是一种压缩真实世界数据集以实现高效训练的策略。然而,它在大规模和高分辨率数据集上表现不佳,限制了其应用。本文提出了一种新的分辨率无关的数据集蒸馏方法FocusDD,通过识别关键信息块来实现蒸馏数据的多样性和真实性,从而确保蒸馏数据集在不同网络架构上的泛化能力。具体来说,FocusDD利用预训练的Vision Transformer (ViT)提取关键图像块,然后将它们合成为单个蒸馏图像。这些捕获多个目标的蒸馏图像不仅适用于分类任务,也适用于目标检测等密集任务。为了进一步提高蒸馏数据集的泛化性,每个合成图像都使用原始图像的下采样视图进行增强。在ImageNet-1K数据集上的实验结果表明,在每类100张图像(IPC)的情况下,ResNet50和MobileNet-v2分别达到了71.0%和62.6%的验证精度,超过了现有方法2.8%和4.7%。值得注意的是,FocusDD是第一个将蒸馏数据集用于目标检测任务的方法。在COCO2017数据集上,在IPC为50的情况下,YOLOv11n和YOLOv11s分别达到了24.4%和32.1%的mAP,进一步验证了该方法的有效性。
🔬 方法详解
问题定义:论文旨在解决现有数据集蒸馏方法难以有效处理大规模、高分辨率真实世界数据集的问题。现有方法在面对复杂场景和高分辨率图像时,蒸馏出的数据集难以保持足够的代表性和泛化能力,导致训练出的模型性能下降。
核心思路:论文的核心思路是通过识别并提取图像中的关键信息块(patches),并将这些关键信息融合到蒸馏图像中,从而保证蒸馏数据集的多样性和真实性。同时,为了增强泛化能力,还引入了原始图像的下采样视图作为补充信息。这样设计的目的是让蒸馏数据集能够更好地代表原始数据集,并提升模型在不同架构上的泛化性能。
技术框架:FocusDD的整体框架主要包含以下几个阶段:1) 使用预训练的Vision Transformer (ViT)提取原始图像的关键patches;2) 将提取的关键patches合成为单个蒸馏图像,该图像包含多个目标的信息;3) 使用原始图像的下采样视图对合成的蒸馏图像进行增强,以提高泛化能力;4) 使用蒸馏数据集训练目标模型,并在验证集上评估性能。
关键创新:该方法最重要的创新点在于:1) 提出了一种分辨率无关的数据集蒸馏方法,能够有效处理高分辨率图像;2) 利用预训练的ViT提取关键图像块,保证了蒸馏数据集的信息丰富度;3) 首次将数据集蒸馏方法应用于目标检测任务,扩展了其应用范围。
关键设计:在关键设计方面,论文使用了预训练的ViT模型,并根据具体任务调整了ViT的参数。在合成蒸馏图像时,采用了特定的融合策略,以保证patches之间的连贯性和视觉效果。此外,下采样视图的比例也是一个重要的参数,需要根据数据集的特点进行调整。损失函数方面,采用了交叉熵损失函数(classification)和相应的目标检测损失函数(detection)。
🖼️ 关键图片
📊 实验亮点
FocusDD在ImageNet-1K数据集上取得了显著的性能提升,ResNet50和MobileNet-v2在每类100张图像(IPC)的情况下,分别达到了71.0%和62.6%的验证精度,超过了现有方法2.8%和4.7%。更重要的是,FocusDD首次成功应用于目标检测任务,在COCO2017数据集上,YOLOv11n和YOLOv11s在IPC为50的情况下,分别达到了24.4%和32.1%的mAP,验证了其在密集预测任务中的有效性。
🎯 应用场景
FocusDD具有广泛的应用前景,可用于降低大数据集训练的计算成本和存储需求,尤其适用于资源受限的边缘设备和移动平台。该方法可以应用于图像分类、目标检测等多种视觉任务,并有望推动自动驾驶、智能安防、医疗影像分析等领域的发展。未来,可以进一步探索FocusDD在其他模态数据上的应用,例如文本、语音等。
📄 摘要(原文)
Dataset distillation has emerged as a strategy to compress real-world datasets for efficient training. However, it struggles with large-scale and high-resolution datasets, limiting its practicality. This paper introduces a novel resolution-independent dataset distillation method Focus ed Dataset Distillation (FocusDD), which achieves diversity and realism in distilled data by identifying key information patches, thereby ensuring the generalization capability of the distilled dataset across different network architectures. Specifically, FocusDD leverages a pre-trained Vision Transformer (ViT) to extract key image patches, which are then synthesized into a single distilled image. These distilled images, which capture multiple targets, are suitable not only for classification tasks but also for dense tasks such as object detection. To further improve the generalization of the distilled dataset, each synthesized image is augmented with a downsampled view of the original image. Experimental results on the ImageNet-1K dataset demonstrate that, with 100 images per class (IPC), ResNet50 and MobileNet-v2 achieve validation accuracies of 71.0% and 62.6%, respectively, outperforming state-of-the-art methods by 2.8% and 4.7%. Notably, FocusDD is the first method to use distilled datasets for object detection tasks. On the COCO2017 dataset, with an IPC of 50, YOLOv11n and YOLOv11s achieve 24.4% and 32.1% mAP, respectively, further validating the effectiveness of our approach.