Predicting LLM Compression Degradation from Spectral Statistics

📄 arXiv: 2604.18085v1 📥 PDF

作者: Mingxue, Xu

分类: cs.LG

发布日期: 2026-04-20

备注: Profoundly assisted by agentic AI


💡 一句话要点

提出压缩前性能预测方法以优化大语言模型的低秩压缩

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低秩压缩 大语言模型 性能预测 矩阵分解 模型优化

📋 核心要点

  1. 现有的低秩压缩方法在评估模型性能时计算成本高,难以预测压缩带来的性能下降。
  2. 论文提出通过计算交互项$γarρ_s$来预测压缩后的性能下降,从而优化压缩决策。
  3. 实验结果表明,所提预测因子在注意力层和MLP层的准确度下降预测中具有较高的相关性,验证了方法的有效性。

📝 摘要(中文)

矩阵级低秩压缩是降低大型语言模型成本的有效方法,但压缩过程及其对语言任务的评估可能非常昂贵。本文系统分析了Qwen3和Gemma3模型系列在四种代表性的低秩压缩方法下的表现,包括普通SVD、两种ASVD变体和SVD-LLM。研究发现,稳定秩和信息密度(以每个参数的比特数衡量)主导了性能下降。交互项$γarρ_s$(压缩比与稳定秩的乘积)是准确度下降的稳健预测因子,注意力层的皮尔逊相关系数为$0.890$,MLP层为$0.839$。我们提供了理论直觉,解释了该预测因子为何有效,并将其与标准SVD截断界限及变换器层中的误差组成机制联系起来。这些发现使得预测-再压缩的工作流程成为可能。

🔬 方法详解

问题定义:本文旨在解决在进行低秩压缩时,如何在不进行昂贵的计算评估的情况下预测模型性能下降的问题。现有方法缺乏有效的性能预测机制,导致资源浪费。

核心思路:论文提出通过计算压缩比与稳定秩的乘积$γarρ_s$,作为性能下降的预测因子。这一设计基于对模型参数的统计分析,能够在压缩前提供准确的性能预估。

技术框架:整体流程包括三个主要阶段:首先,从模型权重中计算$γarρ_s$;其次,利用该因子估计性能下降;最后,基于预测结果决定是否进行压缩。

关键创新:最重要的创新点在于提出了$γarρ_s$作为性能下降的稳健预测因子,与传统方法相比,能够在压缩前有效评估模型的表现,降低了计算成本。

关键设计:在实验中,采用了四种低秩压缩方法,并通过交叉验证来验证$γarρ_s$的预测能力,确保了结果的可靠性。

📊 实验亮点

实验结果显示,所提的$γarρ_s$预测因子在注意力层的皮尔逊相关系数达到$0.890$,在MLP层为$0.839$,显著高于传统方法,表明该方法在性能预测上的有效性和可靠性。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的优化与部署,尤其是在资源受限的环境中。通过提前预测压缩效果,研究者和工程师可以更有效地配置计算资源,提升模型的实际应用价值,降低开发成本。

📄 摘要(原文)

Matrix-level low-rank compression is a promising way to reduce the cost of large language models, but running compression and evaluating the resulting models on language tasks can be prohibitively expensive. Can compression-induced degradation be predicted before committing to this compute? We systematically analyze the Qwen3 and Gemma3 model families across four representative low-rank compression methods: vanilla SVD, two ASVD variants, and SVD-LLM. We find that stable rank and information density, measured in bits per parameter, dominate performance degradation. The interaction term $γ\cdot \barρ_s$, defined as compression ratio times stable rank, is a robust predictor of accuracy degradation, achieving leave-one-out cross-validation Pearson correlations of $0.890$ for attention layers and $0.839$ for MLP layers. We provide theoretical intuition for why this predictor succeeds by connecting it to standard SVD truncation bounds and error composition mechanisms in transformer layers. These findings enable a predict-then-compress workflow: compute $γ\cdot \barρ_s$ from weights, estimate degradation, and invest compute only in desirable configurations.