LLMCodec: Adapting Video Codecs for Efficient Weight Compression of Large Language Models

📄 arXiv: 2606.05861v1 📥 PDF

作者: Rui Wang, Yan Zhao, Li Song, Zhengxue Cheng

分类: cs.MM, cs.AI

发布日期: 2026-06-04

备注: 6 pages, 4 figures. Submitted to IEEE BMSB 2026


💡 一句话要点

提出LLMCodec以解决大语言模型压缩问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型压缩 视频编码 仿射量化 VVC/H.266 自然语言处理 数据传输 存储优化

📋 核心要点

  1. 现有模型压缩方法依赖于微调或校准数据,泛化能力有限,难以适应不同的张量类型。
  2. LLMCodec通过利用视频编码技术,结合仿射量化,提供了一种新的LLM压缩解决方案。
  3. 在LLaMA-3-8B模型上,LLMCodec在2位精度下显著提升了模型性能,降低了困惑度和提高了准确率。

📝 摘要(中文)

随着大语言模型(LLMs)的快速发展,自然语言处理领域取得了显著进展。然而,这些模型的规模不断扩大,给存储、传输和部署带来了重大挑战。尽管已有大量研究致力于模型压缩和量化,但现有方法往往依赖于微调或校准数据,且在不同张量类型之间的泛化能力有限。本文提出LLMCodec,一种基于视频编码的LLM压缩方法,结合了仿射量化与最新的VVC/H.266视频编码。实验表明,LLMCodec在不同模型上表现出良好的鲁棒性和通用性,尤其是在LLaMA-3-8B模型上,2位精度下,LLMCodec将困惑度降低超过1.5倍,并使下游任务准确率提高21%。

🔬 方法详解

问题定义:本文旨在解决大语言模型在存储和传输过程中的压缩问题。现有的压缩方法通常依赖于特定的数据集进行微调,导致其在不同模型和张量类型上的适用性受到限制。

核心思路:LLMCodec的核心思路是借助视频编码技术的优势,特别是其对矩阵结构数据的兼容性和可配置的压缩策略,来实现高效的模型压缩。通过结合仿射量化与VVC/H.266视频编码,LLMCodec能够在不依赖大量校准数据的情况下,提供有效的压缩效果。

技术框架:LLMCodec的整体架构包括数据预处理、仿射量化、视频编码和解码等主要模块。首先,对模型权重进行预处理,然后应用仿射量化技术,最后使用VVC/H.266进行编码,确保压缩后的数据能够高效传输和存储。

关键创新:LLMCodec的主要创新在于将视频编码技术引入到大语言模型的压缩中,这一方法与传统的依赖微调的压缩方法有本质区别,能够在不同模型间实现更好的泛化能力。

关键设计:在设计中,LLMCodec采用了特定的量化参数设置,以优化压缩效果,并在编码过程中使用了VVC/H.266的高效实现,确保了压缩后的数据在解码时能够保持较高的质量。具体的损失函数和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,LLMCodec在LLaMA-3-8B模型上以2位精度实现了困惑度降低超过1.5倍的显著提升,同时下游任务的准确率提高了21%。这些结果表明LLMCodec在压缩性能和模型效果上的优越性,超越了现有的压缩方法。

🎯 应用场景

LLMCodec的研究成果在多个领域具有潜在应用价值,尤其是在需要高效存储和快速传输大语言模型的场景中,如云计算、边缘计算和移动设备等。通过降低模型的存储需求和提高传输效率,LLMCodec能够促进大语言模型在实际应用中的推广和落地,推动自然语言处理技术的进一步发展。

📄 摘要(原文)

The rapid development of large language models(LLMs) has led to remarkable advances in natural language processing. However, the increasing scale of these models introduces substantial challenges in terms of storage, transmission, and deployment. Though great efforts have been devoted to model compression and quantization, existing methods often rely on fine-tuning or calibration data, which exhibit limited generalization across different tensor types. In this paper, we argue that video codecs offer a promising solution for LLM compression, due to their inherent compatibility with matrix structured data, configurable compression strategies, and the availability of highly optimized, off-the-shelf implementations. Therefore, we present LLMCodec, a video codec-based LLM compression method that integrates affine quantization with the recent VVC/H.266 video codec. Beyond VVC, we further compare a range of video codecs and encoding profiles to evaluate their impact on compression performance. Experiments on different models demonstrate the robustness and generality of LLMCodec. Notably, on LLaMA-3-8B at 2-bit precision, LLMCodec reduces perplexity by over 1.5x and improves downstream task accuracy by 21% compared with the existing method.