GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

作者: Fanxu Meng

分类: cs.LG, cs.AI

发布日期: 2026-05-14

备注: https://github.com/MuLabPKU/TransArch

💡 一句话要点

提出GQLA以解决硬件适应性大语言模型解码问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 潜在注意力 大语言模型 硬件适应性 张量并行 模型压缩 高效推理 深度学习

📋 核心要点

现有的多头潜在注意力（MLA）方法在推理时仅支持单一路径，限制了其在不同硬件上的适应性和性能。
论文提出了组查询潜在注意力（GQLA），通过最小修改实现了两条代数等效的解码路径，增强了硬件适应性。
在LLaMA-3-8B模型上，GQLA在MQA-吸收路径上将每个标记的KV缓存压缩至28.125%的基线，同时保持GQA级别的流量。

📝 摘要（中文）

多头潜在注意力（MLA）是DeepSeek-V2/V3中使用的注意力机制，它将键和值压缩为低秩潜在表示，并几乎完美匹配H100的屋顶线。然而，其训练权重仅暴露出一种解码路径，即吸收的MQA形式，这限制了高效推理与H100级计算带宽比的绑定，放弃了沿头轴的张量并行性，并在普通推理GPU（如出口受限的H20）上未能实现多标记预测（MTP）增益。我们提出了组查询潜在注意力（GQLA），这是对MLA的最小修改，其训练权重在相同参数上暴露出两条代数等效的解码路径：与MLA相同的MQA吸收路径，以及具有每组扩展缓存的GQA路径。运行时选择与目标硬件匹配的路径，无需重新训练或自定义内核，因此单一的GQLA权重集能够同时支持H100（MQA-吸收，s_q=1）和H20（GQA + MTP，s_q=2）的屋顶线，同时在GQA路径上支持高达8路零冗余张量并行性。

🔬 方法详解

问题定义：本论文旨在解决现有多头潜在注意力（MLA）方法在不同硬件上推理能力不足的问题。现有方法仅支持单一路径，限制了其在不同计算资源上的灵活性和效率。

核心思路：提出组查询潜在注意力（GQLA），通过对MLA的最小修改，暴露出两条代数等效的解码路径，从而提高硬件适应性。GQLA能够根据目标硬件动态选择最优路径，无需重新训练。

技术框架：GQLA的整体架构包括两个主要路径：MQA吸收路径和GQA路径。MQA路径与MLA相同，而GQA路径则通过每组扩展缓存来优化性能。运行时根据硬件选择合适的路径。

关键创新：GQLA的核心创新在于其能够在同一组权重下支持多种解码路径，显著提升了模型在不同硬件上的适应性和性能。与现有方法相比，GQLA在推理时实现了更高的灵活性和效率。

关键设计：在设计中，GQLA通过扩展缓存和优化路径选择来实现高效推理。具体参数设置和网络结构细节未在摘要中详细说明，需参考完整论文以获取更多信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GQLA在LLaMA-3-8B模型上实现了显著的性能提升，特别是在MQA-吸收路径上，KV缓存压缩至28.125%的基线，且在GQA路径上支持高达8路零冗余张量并行性，展现出优越的硬件适应性。

🎯 应用场景

该研究具有广泛的应用潜力，尤其是在需要高效推理的大语言模型场景中。GQLA的设计使其能够在不同硬件上灵活适应，提升了模型的实用性，未来可应用于智能助手、自动翻译和内容生成等领域。

📄 摘要（原文）

Multi-head Latent Attention (MLA), the attention used in DeepSeek-V2/V3, jointly compresses keys and values into a low-rank latent and matches the H100 roofline almost perfectly. Its trained weights, however, expose only one decoding path - an absorbed MQA form - which ties efficient inference to H100-class compute-bandwidth ratios, forfeits tensor parallelism along the head axis, and yields no Multi-Token Prediction (MTP) gain on commodity inference GPUs such as the export-restricted H20. We propose Group-Query Latent Attention (GQLA), a minimal modification of MLA whose trained weights expose two algebraically equivalent decoding paths over the same parameters: an MQA-absorb path identical to MLA's, and a GQA path with a per-group expanded cache. The runtime picks the path that matches the target hardware - no retraining, no custom kernels - so a single set of GQLA weights pins the rooflines of both H100 (MQA-absorb, s_q=1) and H20 (GQA + MTP, s_q=2), while supporting up to 8-way zero-redundancy tensor parallelism on the GQA path. To avoid pretraining from scratch we extend TransMLA into TransGQLA, which converts a pretrained GQA checkpoint into a GQLA model; on LLaMA-3-8B it compresses the per-token KV cache to 28.125% of the GQA baseline on the MQA-absorb path while structurally preserving GQA-level traffic on the per-group path.

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理