IO-SVD: Input-Output Whitened SVD for Adaptive-Rank LLM Compression
作者: Ali Abbasi, Chayne Thrash, Haoran Qin, Hamed Pirsiavash, Soheil Kolouri
分类: cs.LG
发布日期: 2026-05-15
🔗 代码/项目: GITHUB
💡 一句话要点
提出IO-SVD,通过KL感知双边白化SVD实现自适应秩LLM压缩
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型压缩 奇异值分解 后训练量化 低秩分解 模型优化
📋 核心要点
- 现有LLM压缩方法依赖输入白化、同质秩分配或与损失无关的启发式方法,限制了压缩性能。
- IO-SVD构建KL感知的双边白化空间,同时考虑输入激活统计和输出预测敏感性。
- 实验表明,IO-SVD在压缩LLM的同时,能有效保持模型性能并加速推理。
📝 摘要(中文)
大型语言模型在语言和推理任务中表现出色,但其存储和计算成本仍然是资源受限和延迟敏感环境中部署的主要障碍。基于SVD的后训练压缩提供了一种与硬件无关的方法,通过低秩分解来减小模型大小并提高推理效率。然而,现有方法通常依赖于仅输入白化空间、同质秩分配或与损失无关的分配启发式方法,限制了它们在激进压缩下保持模型质量的能力。我们提出了一种输入-输出白化SVD(IO-SVD),这是一种后训练压缩方法,它为模型权重形成一个KL感知的双边白化空间。通过对前K个token概率的KL损失进行二阶展开,IO-SVD构建了一个捕获预测敏感性的输出侧度量,而输入白化捕获激活统计信息。我们进一步引入了一种有效的异构秩分配策略,该策略使用一阶校准损失估计对白化的奇异分量进行评分,并在全局预算下修剪最不敏感的分量。受到先前将SVD截断与量化相结合的工作的启发,我们通过损失感知的重映射改进了混合SVD-量化压缩,该重映射基于量化它们所产生的预测损失变化,选择用于8位量化的低秩因子行。跨多种LLM和VLM系列的广泛实验以及推理时间分析表明,IO-SVD在最小化性能下降的同时压缩LLM,并提供实际的推理加速。
🔬 方法详解
问题定义:现有基于SVD的LLM压缩方法,如仅使用输入白化,或采用同质秩分配,忽略了模型权重对输出预测的敏感度差异,导致压缩后模型性能下降。因此,需要一种更精细的压缩方法,能够在压缩过程中更好地保留模型的重要信息。
核心思路:IO-SVD的核心在于构建一个KL散度感知的双边白化空间。通过输入白化捕捉激活统计信息,并通过输出白化捕捉预测敏感性。这种双边白化能够更准确地识别模型中重要的权重,从而在压缩过程中更好地保留这些权重。
技术框架:IO-SVD包含以下主要阶段:1) 构建双边白化空间:使用KL散度对模型权重进行输入和输出侧的白化。2) 异构秩分配:使用一阶校准损失估计对白化的奇异分量进行评分,并根据全局预算修剪不重要的分量。3) 混合SVD-量化压缩:结合SVD截断和量化,并使用损失感知的重映射选择用于量化的低秩因子行。
关键创新:IO-SVD的关键创新在于:1) KL散度感知的双边白化空间,能够更准确地捕捉模型权重的重要性。2) 异构秩分配策略,能够根据不同权重的重要性进行自适应的秩分配。3) 损失感知的重映射,能够在混合SVD-量化压缩中更好地保留模型性能。
关键设计:IO-SVD的关键设计包括:1) 使用KL散度的二阶展开来构建输出侧度量。2) 使用一阶校准损失估计来对白化的奇异分量进行评分。3) 使用损失感知的重映射来选择用于8位量化的低秩因子行。具体参数设置和损失函数选择未在摘要中详细说明,需要参考论文全文。
🖼️ 关键图片
📊 实验亮点
IO-SVD在多种LLM和VLM模型上进行了广泛实验,结果表明,该方法能够在最小化性能下降的同时压缩LLM,并提供实际的推理加速。具体的性能数据和对比基线需要在论文全文中查找。
🎯 应用场景
IO-SVD适用于资源受限和延迟敏感的场景,例如移动设备上的LLM部署、边缘计算等。通过减小模型大小和提高推理速度,IO-SVD可以降低LLM的部署成本,并使其能够在更多场景中应用。该方法还有助于推动LLM在实际应用中的普及。
📄 摘要(原文)
Large language models deliver strong performance across language and reasoning tasks, but their storage and compute costs remain major barriers to deployment in resource-constrained and latency-sensitive settings. SVD-based post-training compression offers a hardware-agnostic way to reduce model size and improve inference efficiency through low-rank factorization. However, existing methods often rely on input-only whitening spaces, homogeneous rank allocation, or loss-agnostic allocation heuristics, limiting their ability to preserve model quality under aggressive compression. We propose Input-Output Whitened SVD (IO-SVD), a post-training compression method that forms a KL-aware double-sided whitening space for model weights. Using a second-order expansion of the KL loss over the top-K token probabilities, IO-SVD constructs an output-side metric that captures predictive sensitivity, while input whitening captures activation statistics. We further introduce an efficient heterogeneous rank-allocation strategy that scores whitened singular components using first-order calibration loss estimates and prunes the least sensitive components under a global budget. Inspired by prior work that combines SVD truncation with quantization, we improve hybrid SVD-quantization compression through loss-aware remapping, which selects low-rank factor rows for 8-bit quantization based on the predicted loss change incurred by quantizing them. Extensive experiments across diverse LLM and VLM families, and inference-time analysis shows that IO-SVD compresses LLMs with minimal performance degradation while delivering practical inference speedups. Code is available at https://github.com/mint-vu/IO-SVD.git