GlowQ: Group-Shared LOw-Rank Approximation for Quantized LLMs
作者: Selim An, Il hong Suh, Yeseong Kim
分类: cs.LG, cs.AI
发布日期: 2026-03-26
💡 一句话要点
GlowQ:面向量化LLM的分组共享低秩近似方法,提升效率与精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量化 低秩近似 大型语言模型 模型压缩 推理加速 分组共享 选择性校正
📋 核心要点
- 低比特量化虽能有效压缩LLM,但会显著降低模型精度,现有低秩校正方法存在延迟和内存开销过大的问题。
- GlowQ通过分组共享低秩近似,为每个输入共享组缓存单个共享右因子,并选择性地恢复部分组或层,降低了计算和存储成本。
- 实验结果表明,GlowQ在降低延迟、提高吞吐量的同时,有效提升了量化LLM的精度,GlowQ-S进一步降低了延迟。
📝 摘要(中文)
本文提出GlowQ,一种用于量化大型语言模型(LLM)的分组共享低秩近似方法。针对低比特量化(如4比特)导致的精度下降问题,现有低秩校正方法(如LQER、QERA、ASER)虽能缓解,但需恢复所有层并在每个解码器块中插入纠错模块,增加了延迟和内存开销。GlowQ为每个输入共享组缓存单个共享右因子,仅恢复精度收益最高的组或层。GlowQ对每个输入共享组仅计算一次高精度投影并在其模块中复用,降低了参数和内存开销,同时保留了层特定校正的表达能力。选择性变体GlowQ-S进一步减少延迟。实验表明,相比现有方法,GlowQ平均降低了5.6%的首字节时间(TTFB),吞吐量提高了9.6%,WikiText-2困惑度降低了0.17%,下游任务精度提高了0.42个百分点。GlowQ-S在平均精度损失不超过0.2个百分点的情况下,TTFB降低了23.4%,吞吐量提高了37.4%。
🔬 方法详解
问题定义:论文旨在解决低比特量化大型语言模型时,精度显著下降的问题。现有的低秩校正方法虽然可以缓解这个问题,但是它们通常需要恢复所有层,并且在每个解码器块中插入额外的纠错模块,这导致了显著的延迟增加和内存开销。
核心思路:论文的核心思路是利用分组共享的低秩近似来减少计算和存储开销。通过将输入进行分组,并在每个组内共享一个低秩右因子,可以减少需要存储和计算的参数数量。此外,通过选择性地应用低秩近似,只在那些能够带来最大精度提升的层或组上进行校正,可以进一步降低延迟。
技术框架:GlowQ的技术框架主要包括以下几个步骤:1) 将输入进行分组,形成输入共享组;2) 为每个输入共享组计算一个共享的低秩右因子;3) 选择性地将该低秩右因子应用于量化后的模型,以校正量化误差。GlowQ-S是GlowQ的选择性变体,它会评估每个组或层应用低秩近似带来的精度提升,并只在那些能够带来最大收益的地方应用。
关键创新:GlowQ的关键创新在于分组共享的低秩近似和选择性应用机制。分组共享降低了参数和内存开销,而选择性应用则进一步降低了延迟,同时保持了较高的精度。与现有方法相比,GlowQ不需要恢复所有层,也不需要在每个解码器块中插入纠错模块,从而显著提高了效率。
关键设计:GlowQ的关键设计包括:1) 输入分组策略:如何将输入进行分组,以最大化共享低秩因子的收益;2) 低秩因子的计算方法:如何有效地计算每个组的共享低秩右因子;3) 选择性应用策略:如何选择哪些组或层应该应用低秩近似,以在精度和效率之间取得最佳平衡。论文中可能使用了特定的损失函数或网络结构来优化这些设计,但具体细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GlowQ在WikiText-2数据集上将困惑度降低了0.17%,在下游任务中精度提高了0.42个百分点。与基线方法相比,GlowQ平均降低了5.6%的首字节时间(TTFB),吞吐量提高了9.6%。GlowQ-S在精度损失不超过0.2个百分点的情况下,TTFB降低了23.4%,吞吐量提高了37.4%,显示出显著的性能提升。
🎯 应用场景
GlowQ技术可广泛应用于对延迟和内存有严格要求的场景,例如移动设备上的本地LLM推理、边缘计算环境以及资源受限的服务器部署。通过降低量化LLM的计算和存储成本,GlowQ使得在这些场景下部署高性能的LLM成为可能,从而加速LLM在各行业的落地应用。
📄 摘要(原文)
Quantization techniques such as BitsAndBytes, AWQ, and GPTQ are widely used as a standard method in deploying large language models but often degrades accuracy when using low-bit representations, e.g., 4 bits. Low-rank correction methods (e.g., LQER, QERA, ASER) has been proposed to mitigate this issue, however, they restore all layers and insert error-correction modules into every decoder block, which increases latency and memory overhead. To address this limitation, we propose GlowQ, a group-shared low-rank approximation for quantized LLMs that caches a single shared right factor per input-sharing group and restores only the groups or layers that yield the highest accuracy benefit. GlowQ computes the high-precision projection once per input-sharing group and reuses it across its modules, reducing parameter and memory overhead, and retaining the expressivity of layer-specific corrections. We also propose a selective variant, GlowQ-S, that applies the cached shared module only where it provides the largest benefit. Compared with strong baselines, our approach reduces TTFB by (5.6%) and increases throughput by (9.6%) on average, while reducing perplexity on WikiText-2 by (0.17%) and increasing downstream accuracy by 0.42 percentage points. The selective model GlowQ-S further reduces latency, cutting TTFB by (23.4%) and increasing throughput by (37.4%), while maintaining accuracy within 0.2 percentage points on average.