A general tensor-structured compression scheme for efficient large language models
作者: Ying Lu, Peng-Fei Zhou, Qi-Xuan Fang, Pan Zhang, Shi-Ju Ran, Gang Su
分类: cs.CL, cs.AI, cs.LG, quant-ph
发布日期: 2026-05-25
备注: 12 pages, 4 figures
💡 一句话要点
提出MixT:一种通用的张量结构压缩方案,用于高效压缩大型语言模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 模型压缩 张量分解 线性变换 Transformer 推理加速 低资源部署
📋 核心要点
- 大型语言模型计算开销巨大,部署困难,现有压缩方法缺乏通用性,且对模型结构依赖性强。
- MixT通过将密集线性层替换为张量算子混合,直接作用于通用线性投影,实现模型压缩。
- 实验表明,MixT在保持模型性能的同时,显著降低了参数量、计算量和内存占用,具有实际应用潜力。
📝 摘要(中文)
大型语言模型(LLMs)主要由密集的线性变换构成,其存储、内存和计算开销阻碍了高效的适配和部署,同时也掩盖了结构简化对功能的影响。本文提出了一种张量混合(MixT)的通用张量结构压缩方案,该方案用原生可执行的张量算子混合来替换目标密集的线性层。MixT直接作用于通用的线性投影,而不是特定于模型的组件,因此可能适用于基于Transformer的LLM和其他密集神经映射。我们在Qwen3-8B和LLaMA2-7B上,采用统一的恢复协议评估了MixT,识别出一个广泛的可压缩区域,在该区域内,MMLU的准确性在模型特定的边界处发生突变之前,基本上得以保持。这种转变与输出熵、预测熵和层间几何结构的协调变化相吻合。在LLaMA2-7B的过渡边界处,MixT将完整模型的参数减少了47.5%,推理FLOPs减少了37.1%,训练FLOPs减少了52.1%,峰值推理内存减少了60.4%,证明了其在降低LLM压缩成本方面的实际潜力。
🔬 方法详解
问题定义:大型语言模型(LLMs)的部署和应用面临着巨大的计算和存储挑战,这主要是由于模型中大量的密集线性变换层。现有的模型压缩方法通常是模型特定的,并且可能需要对模型结构进行修改,这限制了它们的通用性和易用性。此外,这些方法在压缩过程中可能会导致显著的性能下降。因此,需要一种通用的、高效的压缩方案,能够在不显著降低模型性能的前提下,减少LLMs的计算和存储开销。
核心思路:MixT的核心思想是将LLM中计算量最大的密集线性层替换为一系列张量算子的混合。这种方法利用了张量分解的优势,能够以更紧凑的方式表示原始的线性变换,从而减少参数量和计算量。通过直接作用于通用的线性投影,MixT避免了对特定模型结构的依赖,提高了其通用性。此外,MixT旨在通过优化张量算子的选择和组合,尽可能地保持原始模型的性能。
技术框架:MixT的整体框架包括以下几个主要步骤:1) 识别目标线性层:确定LLM中需要压缩的密集线性层。2) 张量分解:将目标线性层分解为一系列张量算子的混合。3) 优化:优化张量算子的参数,以最小化压缩后的模型与原始模型之间的性能差异。4) 集成:将压缩后的张量算子混合集成到原始模型中。5) 评估:评估压缩后的模型在各种任务上的性能。
关键创新:MixT的关键创新在于其通用性和高效性。与现有的模型压缩方法相比,MixT不依赖于特定的模型结构,可以直接应用于各种基于Transformer的LLM。此外,MixT通过优化张量算子的选择和组合,能够在保持模型性能的同时,显著降低参数量和计算量。这种方法为LLM的压缩提供了一种新的思路,具有广泛的应用前景。
关键设计:MixT的关键设计包括:1) 张量算子的选择:选择合适的张量算子是实现高效压缩的关键。论文中可能使用了如CP分解、Tucker分解等常见的张量分解方法。2) 混合策略:如何将不同的张量算子混合在一起,以最大程度地逼近原始的线性变换。3) 优化目标:定义合适的优化目标,以最小化压缩后的模型与原始模型之间的性能差异。这可能涉及到使用KL散度、MSE等损失函数。4) 超参数设置:确定合适的超参数,如张量分解的秩、优化算法的学习率等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MixT在Qwen3-8B和LLaMA2-7B上取得了显著的压缩效果。在LLaMA2-7B的过渡边界处,MixT将完整模型的参数减少了47.5%,推理FLOPs减少了37.1%,训练FLOPs减少了52.1%,峰值推理内存减少了60.4%,同时保持了MMLU的准确性。这些结果表明,MixT是一种高效且通用的LLM压缩方案。
🎯 应用场景
MixT具有广泛的应用前景,可用于降低大型语言模型的部署成本,使其能够在资源受限的设备上运行。该技术可以应用于云计算、边缘计算、移动设备等多种场景,加速AI应用的普及。此外,MixT还可以用于训练更高效的LLM,降低训练成本,促进LLM的进一步发展。
📄 摘要(原文)
Large language models (LLMs) are dominated by dense linear transformations, whose storage, memory and computational overheads hinder efficient adaptation and deployment while masking the functional impacts of structural simplification. Here we present Tensor Mixture (MixT), a general tensor-structured compression scheme that replaces targeted dense linear layers with natively executable mixtures of tensor operators. Operating directly on generic linear projections instead of model-specific components, MixT is potentially applicable across Transformer-based LLMs and other dense neural mappings. We evaluate MixT on Qwen3-8B and LLaMA2-7B under a unified recovery protocol, identifying a broad compressible regime in which MMLU accuracy is largely preserved before an abrupt transition at model-specific boundaries. This transition coincides with coordinated shifts in output entropy, prediction entropy and inter-layer geometry. At the LLaMA2-7B transition boundary, MixT reduces full-model parameters by 47.5\%, inference FLOPs by 37.1\%, training FLOPs by 52.1\% and peak inference memory by 60.4\%, demonstrating its practical potential for lower-cost LLM compression.