RaanA: A Fast, Flexible, and Data-Efficient Post-Training Quantization Algorithm

📄 arXiv: 2504.03717v2 📥 PDF

作者: Yongyi Yang, Jianyang Gao, Wei Hu

分类: cs.LG, cs.AI

发布日期: 2025-03-29 (更新: 2025-10-31)

🔗 代码/项目: GITHUB


💡 一句话要点

RaanA:一种快速、灵活且数据高效的后训练量化算法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 模型量化 大型语言模型 低比特量化 比特分配

📋 核心要点

  1. 现有PTQ方法需要大量校准数据,且目标比特数选择不灵活,限制了其在资源受限场景下的应用。
  2. RaanA通过RaBitQ-H快速量化和AllocateBits比特分配,在少量数据下实现高效且灵活的量化。
  3. 实验表明,RaanA在保持竞争力的同时,显著降低了校准数据需求,并支持灵活的比特分配策略。

📝 摘要(中文)

后训练量化(PTQ)已成为提高大型语言模型(LLM)推理效率的常用技术。然而,现有的PTQ方法通常存在关键限制,例如需要大量的校准数据和目标比特数选择不灵活。本文提出RaanA,一个统一的PTQ框架,通过引入两个新颖的组件来克服这些挑战:1) RaBitQ-H,一种随机向量量化方法RaBitQ的变体,专为快速、准确和高效的量化而设计;2) AllocateBits,一种基于层量化敏感性优化分配比特宽度的算法。RaanA在实现与最先进量化方法相媲美的性能的同时,速度极快,所需的校准数据极少,并支持灵活的比特分配。大量实验证明了RaanA在平衡效率和准确性方面的有效性。代码已在https://github.com/FFTYYY/RaanA 公开。

🔬 方法详解

问题定义:论文旨在解决现有后训练量化(PTQ)方法对大量校准数据依赖以及比特宽度选择不灵活的问题。现有方法在资源受限的场景下难以应用,且无法根据不同层的敏感性进行优化量化。

核心思路:论文的核心思路是设计一种快速、数据高效且灵活的PTQ框架。通过改进随机向量量化方法,减少计算复杂度,并提出一种比特分配算法,根据层敏感性动态调整比特宽度,从而在少量校准数据下实现高性能量化。

技术框架:RaanA框架包含两个主要模块:RaBitQ-H量化模块和AllocateBits比特分配模块。首先,使用少量校准数据,通过RaBitQ-H对模型权重进行量化。然后,利用AllocateBits算法,根据各层对量化的敏感程度,优化分配比特宽度。最后,使用优化后的比特宽度重新量化模型。

关键创新:RaanA的关键创新在于:1) 提出了RaBitQ-H,一种改进的随机向量量化方法,降低了计算复杂度,提高了量化速度和准确性;2) 设计了AllocateBits算法,能够根据层敏感性动态分配比特宽度,实现更优的量化性能。

关键设计:RaBitQ-H通过哈希查找表加速量化过程,减少了计算量。AllocateBits算法基于层量化误差敏感性进行比特分配,目标是最小化整体量化误差。具体的敏感性评估方法和比特分配策略在论文中有详细描述。

📊 实验亮点

RaanA在多个大型语言模型上进行了实验,结果表明,在少量校准数据下,RaanA能够达到与最先进方法相当甚至更好的性能。例如,在某些模型上,RaanA仅使用少量校准数据就实现了接近全精度模型的性能,同时显著降低了推理时间。

🎯 应用场景

RaanA适用于各种需要高效模型推理的场景,如移动设备、边缘计算和嵌入式系统。该方法可以加速大型语言模型的部署,降低计算成本和功耗,并支持在资源受限的环境中运行复杂的AI模型。未来,RaanA可以进一步扩展到其他类型的模型和任务。

📄 摘要(原文)

Post-training Quantization (PTQ) has become a widely used technique for improving inference efficiency of large language models (LLMs). However, existing PTQ methods generally suffer from crucial limitations such as heavy calibration data requirements and inflexible choice of target number of bits. In this paper, we propose RaanA, a unified PTQ framework that overcomes these challenges by introducing two novel components: 1) RaBitQ-H, a variant of a randomized vector quantization method RaBitQ, designed for fast, accurate, and highly efficient quantization; and 2) AllocateBits, an algorithm that optimally allocates bit-widths across layers based on their quantization sensitivity. RaanA achieves competitive performance with state-of-the-art quantization methods while being extremely fast, requiring minimal calibration data, and enabling flexible bit allocation. Extensive experiments demonstrate RaanA's efficacy in balancing efficiency and accuracy. The code is publicly available at https://github.com/FFTYYY/RaanA .