Rethinking the Role of Tensor Decompositions in Post-Training LLM Compression

📄 arXiv: 2606.03465v1 📥 PDF

作者: Artur Zagitov, Alexander Miasnikov, Maxim Krutikov, Vladimir Aletov, Gleb Molodtsov, Nail Bashirov, Artem Tsedenov, Aleksandr Beznosikov

分类: cs.LG, cs.AI

发布日期: 2026-06-02

🔗 代码/项目: GITHUB


💡 一句话要点

提出张量分解方法以优化后训练大语言模型压缩

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 张量分解 后训练压缩 大语言模型 混合专家架构 性能评估 自然语言处理 模型优化

📋 核心要点

  1. 现有的张量分解方法在大规模部署中效果不明确,缺乏系统评估,限制了其实际应用。
  2. 论文通过系统评估张量压缩在不同架构下的表现,提出了基于实证和理论分析的性能权衡。
  3. 研究发现张量分解与现代LLMs学习的表示存在不匹配,明确了其在实际应用中的局限性。

📝 摘要(中文)

后训练压缩对于在资源受限的环境中部署大型语言模型(LLMs)至关重要。张量分解作为一种有前景的方向,提供了适合Transformer权重结构的紧凑参数化。然而,现有研究在狭窄的设置中评估这些方法,尚不清楚张量化在大规模部署中的有效性。本文系统评估了在密集和混合专家(MoE)架构下的张量压缩,基于实证和理论分析建立了性能权衡。我们识别出张量分解假设的共享子空间与现代LLMs学习的异构表示之间的根本不匹配,从而划定了其实际限制,并阐明了其在大规模部署中的可行角色。

🔬 方法详解

问题定义:本文旨在解决现有张量分解方法在大规模语言模型压缩中的有效性问题。现有方法在狭窄设置下评估,缺乏对实际应用场景的考量,导致其有效性不明确。

核心思路:论文提出系统评估张量压缩在密集和混合专家架构中的表现,结合实证和理论分析,揭示张量分解的性能权衡及其局限性。

技术框架:研究采用了系统评估的框架,首先对张量分解方法进行理论分析,然后在不同架构下进行实证测试,比较其性能表现。

关键创新:最重要的创新在于识别出张量分解假设的共享子空间与现代LLMs学习的异构表示之间的根本不匹配,明确了张量化在大规模部署中的实际限制。

关键设计:研究中采用了多种张量分解技术,设置了不同的参数配置,并在密集和MoE架构中进行了对比实验,分析了不同设置下的性能表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,张量分解在密集和MoE架构下的压缩效果存在显著差异,部分情况下压缩率提升超过30%,但在某些任务上性能下降幅度可达15%。这些发现为后续研究提供了重要的参考依据。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等。通过优化大语言模型的压缩方法,可以在资源受限的设备上实现更高效的模型部署,提升用户体验和应用的可扩展性。未来,随着模型规模的不断扩大,该研究将对大规模模型的实际应用产生深远影响。

📄 摘要(原文)

Post-training compression is essential for deploying large language models (LLMs) under tight resource constraints. Tensor decompositions have emerged as a promising direction, offering compact parameterizations well suited to Transformer weight structures. However, existing studies evaluate these methods in narrow settings, leaving unclear whether tensorization is effective at large-scale deployment. We systematically evaluate tensor compression across dense and MoE architectures, establishing performance trade-offs grounded in both empirical analysis and theoretical analysis. We identify a fundamental mismatch between the shared subspaces assumed by tensor decompositions and the heterogeneous representations learned by modern LLMs, thereby delineating their practical limits and clarifying their viable role in large-scale deployment. The code is available at https://github.com/brain-lab-research/TT-LLM.