Beyond Pixels: Efficient Dataset Distillation via Sparse Gaussian Representation
作者: Chenyang Jiang, Zhengcen Li, Hang Zhao, Qiben Shan, Shaocong Wu, Jingyong Su
分类: cs.CV, cs.AI
发布日期: 2025-09-30 (更新: 2025-12-02)
备注: 19 pages; Code is available on https://github.com/j-cyoung/GSDatasetDistillation
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于稀疏高斯表示的数据集蒸馏方法GSDD,提升效率和性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 数据集蒸馏 稀疏表示 高斯分布 CUDA加速 模型训练 图像渲染 高效算法
📋 核心要点
- 传统数据集蒸馏方法依赖于密集的像素级表示,存在冗余且难以扩展到大规模数据集。
- GSDD利用2D高斯分布进行稀疏表示,仅用少量高斯基元编码关键判别信息,提高数据集多样性。
- 通过CUDA加速的splatting算子,GSDD实现了高效的并行推理和训练,并在多个数据集上取得了SOTA性能。
📝 摘要(中文)
数据集蒸馏是一种很有前途的范式,它合成紧凑且信息丰富的数据集,能够保留大规模数据集的知识,从而解决现代模型训练中巨大的计算和存储负担。传统方法通常依赖于密集的像素级表示,这引入了冗余并且难以扩展。本文提出GSDD,一种新颖且高效的基于2D高斯分布的数据集蒸馏稀疏表示方法。GSDD不是平等地表示所有像素,而是仅使用少量高斯基元在蒸馏图像中编码关键的判别信息。这种稀疏表示可以在相同的存储预算下提高数据集的多样性,增强对困难样本的覆盖,并提高蒸馏性能。为了确保效率和可扩展性,我们采用了基于CUDA的splatting算子进行并行推理和训练,从而以最小的计算和内存开销实现高质量的渲染。我们的方法简单而有效,广泛适用于不同的蒸馏流程,并且具有高度的可扩展性。实验表明,GSDD在CIFAR-10、CIFAR-100和ImageNet子集上实现了最先进的性能,同时保持了高效的编码和解码成本。代码已开源。
🔬 方法详解
问题定义:数据集蒸馏旨在从大型数据集中提取一个小的、具有代表性的子集,用于训练模型,以减少计算和存储成本。现有方法,特别是基于像素级表示的方法,存在冗余信息多、计算量大、难以扩展到大规模数据集等问题。这些方法平等地对待所有像素,忽略了图像中不同区域的重要性差异。
核心思路:GSDD的核心思想是使用稀疏的高斯分布来表示蒸馏数据集中的图像。通过少量的高斯基元,GSDD能够有效地编码图像中的关键判别信息,避免了像素级表示的冗余。这种稀疏表示方法可以在相同的存储预算下,提高数据集的多样性,从而提升蒸馏性能。
技术框架:GSDD的整体框架包括以下几个主要步骤:1) 初始化一组高斯参数(位置、方差、幅度等);2) 使用基于CUDA的splatting算子,将高斯基元渲染成图像;3) 使用渲染的图像训练模型;4) 根据模型在验证集上的表现,更新高斯参数。这个过程迭代进行,直到模型收敛或达到预定的迭代次数。
关键创新:GSDD最重要的创新点在于使用稀疏高斯表示来代替传统的像素级表示。这种稀疏表示方法能够更有效地编码图像中的关键信息,减少冗余,提高数据集的多样性。此外,GSDD还采用了基于CUDA的splatting算子,实现了高效的并行渲染,从而提高了训练效率。与现有方法相比,GSDD在保持甚至提高性能的同时,显著降低了计算和存储成本。
关键设计:GSDD的关键设计包括:1) 高斯基元的数量:需要根据数据集的复杂程度进行调整,数量太少可能无法充分表达图像信息,数量太多则会增加计算成本;2) splatting算子的实现:需要充分利用CUDA的并行计算能力,以实现高效的渲染;3) 损失函数的设计:需要考虑模型在验证集上的表现,以及高斯参数的正则化,以避免过拟合。
🖼️ 关键图片
📊 实验亮点
GSDD在CIFAR-10、CIFAR-100和ImageNet子集上取得了state-of-the-art的性能。例如,在CIFAR-10上,GSDD使用更少的存储空间,达到了比现有方法更高的准确率。实验结果表明,GSDD能够有效地提高数据集的多样性,增强对困难样本的覆盖,从而提升蒸馏性能。同时,GSDD的编码和解码成本非常低,具有很高的效率。
🎯 应用场景
GSDD可应用于各种需要数据集蒸馏的场景,例如:移动设备上的模型训练、资源受限环境下的模型部署、以及大规模数据集的快速原型设计。通过减少训练数据量,GSDD可以显著降低计算和存储成本,加速模型开发和部署过程。未来,GSDD可以进一步扩展到其他数据类型,例如视频和3D数据。
📄 摘要(原文)
Dataset distillation has emerged as a promising paradigm that synthesizes compact, informative datasets capable of retaining the knowledge of large-scale counterparts, thereby addressing the substantial computational and storage burdens of modern model training. Conventional approaches typically rely on dense pixel-level representations, which introduce redundancy and are difficult to scale up. In this work, we propose GSDD, a novel and efficient sparse representation for dataset distillation based on 2D Gaussians. Instead of representing all pixels equally, GSDD encodes critical discriminative information in a distilled image using only a small number of Gaussian primitives. This sparse representation could improve dataset diversity under the same storage budget, enhancing coverage of difficult samples and boosting distillation performance. To ensure both efficiency and scalability, we adapt CUDA-based splatting operators for parallel inference and training, enabling high-quality rendering with minimal computational and memory overhead. Our method is simple yet effective, broadly applicable to different distillation pipelines, and highly scalable. Experiments show that GSDD achieves state-of-the-art performance on CIFAR-10, CIFAR-100, and ImageNet subsets, while remaining highly efficient encoding and decoding cost. Our code is available at https://github.com/j-cyoung/GSDatasetDistillation.