AMAQ: Adaptive Mixed-bit Activation Quantization for Collaborative Parameter Efficient Fine-tuning
作者: Yurun Song, Zhuoyi Yang, Ian G. Harris, Sangeetha Abdu Jyothi
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-10-07
备注: 14 pages
💡 一句话要点
提出AMAQ:一种自适应混合精度激活量化方法,用于协同参数高效微调。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 协同训练 参数高效微调 量化 自适应量化 通信效率 大型语言模型 比特正则化 分布式训练
📋 核心要点
- 现有协同训练方法在通信效率和计算开销方面面临挑战,尤其是在大型语言模型上。
- AMAQ通过自适应地调整激活和梯度的量化精度,在不同通道和层之间分配比特预算,从而降低通信开销。
- 实验表明,AMAQ在保持或提高模型精度的同时,显著降低了通信开销,并增强了训练稳定性。
📝 摘要(中文)
大型语言模型(LLMs)的快速扩展给协同服务器客户端分布式训练带来了显著挑战,尤其是在通信效率和计算开销方面。为了应对这些挑战,本文实现了参数高效的分裂学习,有效地平衡了低资源设备上协同训练的效率和性能。为了降低协同训练中的通信开销,本文提出了一种自适应混合精度激活量化(AMAQ)策略,该策略逐步压缩激活和梯度,从高精度(6到8位)到低精度(3到4位)。AMAQ通过使用比特正则化,基于特征和层的重要性,有效地在通道上分配比特预算来实现这一点。在相同的比特预算下,AMAQ优于固定精度方法,对于LLaMA3 8B和Qwen2.5 7B等模型,提供了约2.5%的更高生成精度和约1.3%的更好分类精度。此外,它显著提高了训练稳定性,并减少了训练期间的超低比特表示崩溃。实验表明,AMAQ有效地集成到实际的多机协同训练设置中,以适度的训练期间比特自适应通信开销,提供了卓越的推理精度。这种权衡使AMAQ成为一种实用且有效的协同训练解决方案,且通信成本极低。
🔬 方法详解
问题定义:论文旨在解决大型语言模型协同训练中通信开销过高的问题。现有固定精度量化方法无法根据特征和层的重要性进行优化,导致精度损失或通信效率低下。超低比特量化容易导致训练崩溃。
核心思路:论文的核心思路是提出一种自适应混合精度激活量化方法(AMAQ),根据特征和层的重要性动态调整量化精度。通过比特正则化,在保证模型性能的前提下,尽可能降低通信开销。
技术框架:AMAQ主要包含以下几个阶段: 1. 特征重要性评估:评估不同通道和层的重要性,确定比特分配的优先级。 2. 比特分配:基于特征重要性,使用比特正则化方法,在不同通道和层之间分配比特预算。 3. 量化:根据分配的比特数,对激活和梯度进行量化。 4. 训练:使用量化后的激活和梯度进行模型训练。
关键创新:AMAQ的关键创新在于自适应的比特分配策略。与传统的固定精度量化方法相比,AMAQ能够根据特征的重要性动态调整量化精度,从而在保证模型性能的同时,显著降低通信开销。此外,AMAQ通过比特正则化,有效避免了超低比特表示崩溃的问题。
关键设计: 1. 比特正则化损失函数:设计比特正则化损失函数,鼓励模型学习更紧凑的表示,并避免超低比特表示崩溃。 2. 特征重要性评估指标:选择合适的特征重要性评估指标,例如梯度幅度或激活方差。 3. 量化策略:采用合适的量化策略,例如对称量化或非对称量化,以最小化量化误差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AMAQ在LLaMA3 8B和Qwen2.5 7B等模型上,相比固定精度量化方法,实现了约2.5%的更高生成精度和约1.3%的更好分类精度。同时,AMAQ显著提高了训练稳定性,并有效避免了超低比特表示崩溃。该方法在实际多机协同训练设置中表现出优越的性能。
🎯 应用场景
AMAQ适用于各种需要协同训练的大型语言模型场景,尤其是在资源受限的边缘设备上。它可以降低通信开销,提高训练效率,并支持更大规模的模型训练。该技术还可以应用于联邦学习、分布式训练等领域,促进人工智能在更多场景下的应用。
📄 摘要(原文)
Large Language Models (LLMs) are scaling rapidly, creating significant challenges for collaborative server client distributed training, particularly in terms of communication efficiency and computational overheads. To address these challenges, we implement Parameter-efficient Split Learning, which effectively balances efficiency and performance for collaborative training on low-resource devices. To reduce communication overhead in collaborative training, we introduce Adaptive Mixed bit Activation Quantization (AMAQ), a strategy that progressively compresses activations and gradients from high precision (6 to 8 bits) to low precision (3 to 4 bits). AMAQ achieves this by effectively allocating bit budgets across channels based on feature wise and layer wise importance using bit regularization. Under the same bit budgets, AMAQ outperforms fixed-precision approaches, delivering about 2.5% higher generation accuracy and about 1.3% better classification accuracy for models like LLaMA3 8B and Qwen2.5 7B. In addition, it significantly enhances training stability and reducing ultra-low bit representation collapse during the training. Experiments demonstrate that AMAQ integrates effectively into practical multi-machine collaborative training setups, offering superior inference accuracy with only a modest communication overhead for bits adaptation during training. This trade off makes AMAQ a practical and effective solution for collaborative training with minimal communication cost.