GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

📄 arXiv: 2605.15250v1 📥 PDF

作者: Fanxu Meng

分类: cs.LG, cs.AI

发布日期: 2026-05-14

备注: https://github.com/MuLabPKU/TransArch


💡 一句话要点

提出GQLA以解决硬件适应性大语言模型解码问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 潜在注意力 大语言模型 硬件适应性 张量并行 模型压缩 高效推理 深度学习

📋 核心要点

  1. 现有的多头潜在注意力(MLA)方法在推理时仅支持单一路径,限制了其在不同硬件上的适应性和性能。
  2. 论文提出了组查询潜在注意力(GQLA),通过最小修改实现了两条代数等效的解码路径,增强了硬件适应性。
  3. 在LLaMA-3-8B模型上,GQLA在MQA-吸收路径上将每个标记的KV缓存压缩至28.125%的基线,同时保持GQA级别的流量。

📝 摘要(中文)

多头潜在注意力(MLA)是DeepSeek-V2/V3中使用的注意力机制,它将键和值压缩为低秩潜在表示,并几乎完美匹配H100的屋顶线。然而,其训练权重仅暴露出一种解码路径,即吸收的MQA形式,这限制了高效推理与H100级计算带宽比的绑定,放弃了沿头轴的张量并行性,并在普通推理GPU(如出口受限的H20)上未能实现多标记预测(MTP)增益。我们提出了组查询潜在注意力(GQLA),这是对MLA的最小修改,其训练权重在相同参数上暴露出两条代数等效的解码路径:与MLA相同的MQA吸收路径,以及具有每组扩展缓存的GQA路径。运行时选择与目标硬件匹配的路径,无需重新训练或自定义内核,因此单一的GQLA权重集能够同时支持H100(MQA-吸收,s_q=1)和H20(GQA + MTP,s_q=2)的屋顶线,同时在GQA路径上支持高达8路零冗余张量并行性。

🔬 方法详解

问题定义:本论文旨在解决现有多头潜在注意力(MLA)方法在不同硬件上推理能力不足的问题。现有方法仅支持单一路径,限制了其在不同计算资源上的灵活性和效率。

核心思路:提出组查询潜在注意力(GQLA),通过对MLA的最小修改,暴露出两条代数等效的解码路径,从而提高硬件适应性。GQLA能够根据目标硬件动态选择最优路径,无需重新训练。

技术框架:GQLA的整体架构包括两个主要路径:MQA吸收路径和GQA路径。MQA路径与MLA相同,而GQA路径则通过每组扩展缓存来优化性能。运行时根据硬件选择合适的路径。

关键创新:GQLA的核心创新在于其能够在同一组权重下支持多种解码路径,显著提升了模型在不同硬件上的适应性和性能。与现有方法相比,GQLA在推理时实现了更高的灵活性和效率。

关键设计:在设计中,GQLA通过扩展缓存和优化路径选择来实现高效推理。具体参数设置和网络结构细节未在摘要中详细说明,需参考完整论文以获取更多信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GQLA在LLaMA-3-8B模型上实现了显著的性能提升,特别是在MQA-吸收路径上,KV缓存压缩至28.125%的基线,且在GQA路径上支持高达8路零冗余张量并行性,展现出优越的硬件适应性。

🎯 应用场景

该研究具有广泛的应用潜力,尤其是在需要高效推理的大语言模型场景中。GQLA的设计使其能够在不同硬件上灵活适应,提升了模型的实用性,未来可应用于智能助手、自动翻译和内容生成等领域。

📄 摘要(原文)

Multi-head Latent Attention (MLA), the attention used in DeepSeek-V2/V3, jointly compresses keys and values into a low-rank latent and matches the H100 roofline almost perfectly. Its trained weights, however, expose only one decoding path - an absorbed MQA form - which ties efficient inference to H100-class compute-bandwidth ratios, forfeits tensor parallelism along the head axis, and yields no Multi-Token Prediction (MTP) gain on commodity inference GPUs such as the export-restricted H20. We propose Group-Query Latent Attention (GQLA), a minimal modification of MLA whose trained weights expose two algebraically equivalent decoding paths over the same parameters: an MQA-absorb path identical to MLA's, and a GQA path with a per-group expanded cache. The runtime picks the path that matches the target hardware - no retraining, no custom kernels - so a single set of GQLA weights pins the rooflines of both H100 (MQA-absorb, s_q=1) and H20 (GQA + MTP, s_q=2), while supporting up to 8-way zero-redundancy tensor parallelism on the GQA path. To avoid pretraining from scratch we extend TransMLA into TransGQLA, which converts a pretrained GQA checkpoint into a GQLA model; on LLaMA-3-8B it compresses the per-token KV cache to 28.125% of the GQA baseline on the MQA-absorb path while structurally preserving GQA-level traffic on the per-group path.