Predicting LLM Compression Degradation from Spectral Statistics

作者: Mingxue, Xu

分类: cs.LG

发布日期: 2026-04-20

备注: Profoundly assisted by agentic AI

💡 一句话要点

提出压缩前性能预测方法以优化大语言模型的低秩压缩

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 低秩压缩 大语言模型 性能预测 矩阵分解 模型优化

📋 核心要点

现有的低秩压缩方法在评估模型性能时计算成本高，难以预测压缩带来的性能下降。
论文提出通过计算交互项$γarρ_s$来预测压缩后的性能下降，从而优化压缩决策。
实验结果表明，所提预测因子在注意力层和MLP层的准确度下降预测中具有较高的相关性，验证了方法的有效性。

📝 摘要（中文）

矩阵级低秩压缩是降低大型语言模型成本的有效方法，但压缩过程及其对语言任务的评估可能非常昂贵。本文系统分析了Qwen3和Gemma3模型系列在四种代表性的低秩压缩方法下的表现，包括普通SVD、两种ASVD变体和SVD-LLM。研究发现，稳定秩和信息密度（以每个参数的比特数衡量）主导了性能下降。交互项$γarρ_s$（压缩比与稳定秩的乘积）是准确度下降的稳健预测因子，注意力层的皮尔逊相关系数为$0.890$，MLP层为$0.839$。我们提供了理论直觉，解释了该预测因子为何有效，并将其与标准SVD截断界限及变换器层中的误差组成机制联系起来。这些发现使得预测-再压缩的工作流程成为可能。

🔬 方法详解

问题定义：本文旨在解决在进行低秩压缩时，如何在不进行昂贵的计算评估的情况下预测模型性能下降的问题。现有方法缺乏有效的性能预测机制，导致资源浪费。

核心思路：论文提出通过计算压缩比与稳定秩的乘积$γarρ_s$，作为性能下降的预测因子。这一设计基于对模型参数的统计分析，能够在压缩前提供准确的性能预估。

技术框架：整体流程包括三个主要阶段：首先，从模型权重中计算$γarρ_s$；其次，利用该因子估计性能下降；最后，基于预测结果决定是否进行压缩。

关键创新：最重要的创新点在于提出了$γarρ_s$作为性能下降的稳健预测因子，与传统方法相比，能够在压缩前有效评估模型的表现，降低了计算成本。

关键设计：在实验中，采用了四种低秩压缩方法，并通过交叉验证来验证$γarρ_s$的预测能力，确保了结果的可靠性。

📊 实验亮点

实验结果显示，所提的$γarρ_s$预测因子在注意力层的皮尔逊相关系数达到$0.890$，在MLP层为$0.839$，显著高于传统方法，表明该方法在性能预测上的有效性和可靠性。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的优化与部署，尤其是在资源受限的环境中。通过提前预测压缩效果，研究者和工程师可以更有效地配置计算资源，提升模型的实际应用价值，降低开发成本。

📄 摘要（原文）

Matrix-level low-rank compression is a promising way to reduce the cost of large language models, but running compression and evaluating the resulting models on language tasks can be prohibitively expensive. Can compression-induced degradation be predicted before committing to this compute? We systematically analyze the Qwen3 and Gemma3 model families across four representative low-rank compression methods: vanilla SVD, two ASVD variants, and SVD-LLM. We find that stable rank and information density, measured in bits per parameter, dominate performance degradation. The interaction term $γ\cdot \barρ_s$, defined as compression ratio times stable rank, is a robust predictor of accuracy degradation, achieving leave-one-out cross-validation Pearson correlations of $0.890$ for attention layers and $0.839$ for MLP layers. We provide theoretical intuition for why this predictor succeeds by connecting it to standard SVD truncation bounds and error composition mechanisms in transformer layers. These findings enable a predict-then-compress workflow: compute $γ\cdot \barρ_s$ from weights, estimate degradation, and invest compute only in desirable configurations.

Predicting LLM Compression Degradation from Spectral Statistics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理