Frequency Matters: Fast Model-Agnostic Data Curation for Pruning and Quantization

📄 arXiv: 2603.16105v1 📥 PDF

作者: Francesco Pio Monaco, Elia Cunegatti, Flavio Vella, Giovanni Iacca

分类: cs.CL, cs.AI

发布日期: 2026-03-17


💡 一句话要点

提出ZipCal:一种快速、模型无关的数据筛选方法,用于模型剪枝和量化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型压缩 数据筛选 校准数据 齐普夫定律 模型剪枝 模型量化 大型语言模型 词汇多样性

📋 核心要点

  1. 现有模型压缩方法在选择校准数据时考虑不足,影响压缩后模型的性能。
  2. ZipCal基于齐普夫定律,通过最大化词汇多样性来选择校准数据,无需模型特定信息。
  3. 实验表明ZipCal在剪枝任务中优于随机抽样,且性能与基于模型困惑度的方法相当,但速度快240倍。

📝 摘要(中文)

后训练模型压缩对于增强大型语言模型(LLMs)的可移植性并保持其性能至关重要。虽然已经提出了几种压缩方法,但较少强调选择最合适的数据集(即所谓的“校准数据”)来寻找压缩模型配置。校准数据的选择是保持模型在任务内和任务间能力的关键步骤。本文通过分析内在数据属性而非模型特定信号,解决了为剪枝和量化识别高性能校准集的挑战。我们引入了 exttt{ extbf{ZipCal}},这是一种基于齐普夫定律最大化词汇多样性的模型无关数据筛选策略。实验表明,我们的方法在各种剪枝基准测试中始终优于标准均匀随机抽样。值得注意的是,在下游性能方面,它也与依赖模型困惑度的最先进方法相当。后者在大型模型和数据集上变得非常昂贵,而 exttt{ extbf{ZipCal}}由于其易于处理的线性复杂度,平均速度快约240倍。

🔬 方法详解

问题定义:论文旨在解决后训练模型压缩中,如何高效地选择合适的校准数据集,以在剪枝和量化后保持模型性能的问题。现有方法,如随机抽样,可能无法充分代表原始数据分布,导致压缩后的模型性能下降。而基于模型困惑度的方法,虽然性能较好,但在大型模型和数据集上计算成本过高。

核心思路:论文的核心思路是利用齐普夫定律(Zipf's law)来指导校准数据的选择。齐普夫定律表明,在自然语言中,单词的频率与其排名成反比。因此,通过选择具有最大词汇多样性的数据子集,可以更好地代表原始数据的分布,从而提高压缩模型的性能。这种方法是模型无关的,避免了计算模型特定指标(如困惑度)的开销。

技术框架:ZipCal的整体流程如下:1. 词频统计:对原始数据集进行词频统计,计算每个词的出现频率。2. 词汇多样性评估:设计一种基于齐普夫定律的指标来评估数据子集的词汇多样性。该指标旨在选择包含更多低频词的子集。3. 数据子集选择:使用贪心算法或其他优化方法,选择具有最高词汇多样性指标的校准数据子集。

关键创新:ZipCal的关键创新在于提出了一种基于齐普夫定律的模型无关数据筛选策略,用于后训练模型压缩。与现有方法相比,ZipCal不需要计算模型特定指标,因此计算效率更高,更适用于大型模型和数据集。同时,ZipCal通过最大化词汇多样性,能够选择更具代表性的校准数据,从而提高压缩模型的性能。

关键设计:ZipCal的关键设计在于词汇多样性评估指标。论文可能定义了一个损失函数,用于衡量数据子集的词汇多样性,该损失函数基于齐普夫定律,鼓励选择包含更多低频词的子集。具体的参数设置可能包括用于控制低频词权重的超参数,以及用于平衡词汇多样性和数据子集大小的正则化项。此外,用于选择数据子集的优化算法(如贪心算法)的具体实现也可能影响最终的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ZipCal在各种剪枝基准测试中始终优于标准均匀随机抽样。在下游任务性能方面,ZipCal与依赖模型困惑度的最先进方法相当,但速度平均快约240倍。这表明ZipCal能够在保持模型性能的同时,显著降低计算成本,尤其是在大型模型和数据集上。

🎯 应用场景

ZipCal可应用于各种需要模型压缩的场景,例如在资源受限的设备上部署大型语言模型,或在边缘设备上进行实时推理。该方法能够显著降低模型大小和计算复杂度,同时保持较高的模型性能,从而提高用户体验和降低部署成本。未来,ZipCal可以扩展到其他类型的模型和数据,并与其他压缩技术相结合,进一步提高模型压缩效率。

📄 摘要(原文)

Post-training model compression is essential for enhancing the portability of Large Language Models (LLMs) while preserving their performance. While several compression approaches have been proposed, less emphasis has been placed on selecting the most suitable set of data (the so-called \emph{calibration data}) for finding the compressed model configuration. The choice of calibration data is a critical step in preserving model capabilities both intra- and inter-tasks. In this work, we address the challenge of identifying high-performance calibration sets for both pruning and quantization by analyzing intrinsic data properties rather than model-specific signals. We introduce \texttt{\textbf{ZipCal}}, a model-agnostic data curation strategy that maximizes lexical diversity based on Zipfian power laws. Experiments demonstrate that our method consistently outperforms standard uniform random sampling across various pruning benchmarks. Notably, it also performs on par, in terms of downstream performance, with a state-of-the-art method that relies on model perplexity. The latter becomes prohibitively expensive at large-scale models and datasets, while \texttt{\textbf{ZipCal}} is on average $\sim$240$\times$ faster due to its tractable linear complexity\footnote{We make the code and the experiments available at https://anonymous.4open.science/r/zipcal-71CD/.}.