GlowQ: Group-Shared LOw-Rank Approximation for Quantized LLMs

作者: Selim An, Il hong Suh, Yeseong Kim

分类: cs.LG, cs.AI

发布日期: 2026-03-26

💡 一句话要点

GlowQ：面向量化LLM的分组共享低秩近似方法，提升效率与精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 量化 低秩近似 大型语言模型 模型压缩 推理加速 分组共享 选择性校正

📋 核心要点

低比特量化虽能有效压缩LLM，但会显著降低模型精度，现有低秩校正方法存在延迟和内存开销过大的问题。
GlowQ通过分组共享低秩近似，为每个输入共享组缓存单个共享右因子，并选择性地恢复部分组或层，降低了计算和存储成本。
实验结果表明，GlowQ在降低延迟、提高吞吐量的同时，有效提升了量化LLM的精度，GlowQ-S进一步降低了延迟。

📝 摘要（中文）

本文提出GlowQ，一种用于量化大型语言模型（LLM）的分组共享低秩近似方法。针对低比特量化（如4比特）导致的精度下降问题，现有低秩校正方法（如LQER、QERA、ASER）虽能缓解，但需恢复所有层并在每个解码器块中插入纠错模块，增加了延迟和内存开销。GlowQ为每个输入共享组缓存单个共享右因子，仅恢复精度收益最高的组或层。GlowQ对每个输入共享组仅计算一次高精度投影并在其模块中复用，降低了参数和内存开销，同时保留了层特定校正的表达能力。选择性变体GlowQ-S进一步减少延迟。实验表明，相比现有方法，GlowQ平均降低了5.6%的首字节时间（TTFB），吞吐量提高了9.6%，WikiText-2困惑度降低了0.17%，下游任务精度提高了0.42个百分点。GlowQ-S在平均精度损失不超过0.2个百分点的情况下，TTFB降低了23.4%，吞吐量提高了37.4%。

🔬 方法详解

问题定义：论文旨在解决低比特量化大型语言模型时，精度显著下降的问题。现有的低秩校正方法虽然可以缓解这个问题，但是它们通常需要恢复所有层，并且在每个解码器块中插入额外的纠错模块，这导致了显著的延迟增加和内存开销。

核心思路：论文的核心思路是利用分组共享的低秩近似来减少计算和存储开销。通过将输入进行分组，并在每个组内共享一个低秩右因子，可以减少需要存储和计算的参数数量。此外，通过选择性地应用低秩近似，只在那些能够带来最大精度提升的层或组上进行校正，可以进一步降低延迟。

技术框架：GlowQ的技术框架主要包括以下几个步骤：1) 将输入进行分组，形成输入共享组；2) 为每个输入共享组计算一个共享的低秩右因子；3) 选择性地将该低秩右因子应用于量化后的模型，以校正量化误差。GlowQ-S是GlowQ的选择性变体，它会评估每个组或层应用低秩近似带来的精度提升，并只在那些能够带来最大收益的地方应用。

关键创新：GlowQ的关键创新在于分组共享的低秩近似和选择性应用机制。分组共享降低了参数和内存开销，而选择性应用则进一步降低了延迟，同时保持了较高的精度。与现有方法相比，GlowQ不需要恢复所有层，也不需要在每个解码器块中插入纠错模块，从而显著提高了效率。

关键设计：GlowQ的关键设计包括：1) 输入分组策略：如何将输入进行分组，以最大化共享低秩因子的收益；2) 低秩因子的计算方法：如何有效地计算每个组的共享低秩右因子；3) 选择性应用策略：如何选择哪些组或层应该应用低秩近似，以在精度和效率之间取得最佳平衡。论文中可能使用了特定的损失函数或网络结构来优化这些设计，但具体细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GlowQ在WikiText-2数据集上将困惑度降低了0.17%，在下游任务中精度提高了0.42个百分点。与基线方法相比，GlowQ平均降低了5.6%的首字节时间（TTFB），吞吐量提高了9.6%。GlowQ-S在精度损失不超过0.2个百分点的情况下，TTFB降低了23.4%，吞吐量提高了37.4%，显示出显著的性能提升。

🎯 应用场景

GlowQ技术可广泛应用于对延迟和内存有严格要求的场景，例如移动设备上的本地LLM推理、边缘计算环境以及资源受限的服务器部署。通过降低量化LLM的计算和存储成本，GlowQ使得在这些场景下部署高性能的LLM成为可能，从而加速LLM在各行业的落地应用。

📄 摘要（原文）

Quantization techniques such as BitsAndBytes, AWQ, and GPTQ are widely used as a standard method in deploying large language models but often degrades accuracy when using low-bit representations, e.g., 4 bits. Low-rank correction methods (e.g., LQER, QERA, ASER) has been proposed to mitigate this issue, however, they restore all layers and insert error-correction modules into every decoder block, which increases latency and memory overhead. To address this limitation, we propose GlowQ, a group-shared low-rank approximation for quantized LLMs that caches a single shared right factor per input-sharing group and restores only the groups or layers that yield the highest accuracy benefit. GlowQ computes the high-precision projection once per input-sharing group and reuses it across its modules, reducing parameter and memory overhead, and retaining the expressivity of layer-specific corrections. We also propose a selective variant, GlowQ-S, that applies the cached shared module only where it provides the largest benefit. Compared with strong baselines, our approach reduces TTFB by (5.6%) and increases throughput by (9.6%) on average, while reducing perplexity on WikiText-2 by (0.17%) and increasing downstream accuracy by 0.42 percentage points. The selective model GlowQ-S further reduces latency, cutting TTFB by (23.4%) and increasing throughput by (37.4%), while maintaining accuracy within 0.2 percentage points on average.

GlowQ: Group-Shared LOw-Rank Approximation for Quantized LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理