Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation
作者: Jingjing Xie, Yuxin Zhang, Mingbao Lin, Liujuan Cao, Rongrong Ji
分类: cs.CV, cs.AI, cs.LG
发布日期: 2024-08-07
备注: Accepted by ACMMM2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出QSLAW:一种量化感知缩放学习方法,用于高效适应多模态大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 参数量化 视觉-语言指令微调 量化感知学习 模型压缩
📋 核心要点
- 多模态大语言模型微调需要大量计算资源,参数量化是潜在的解决方案,但直接应用会造成精度损失。
- QSLAW通过学习量化权重的分组缩放因子来缓解量化误差,并采用多模态Warmup策略防止过拟合。
- 实验表明,QSLAW量化的模型性能可媲美甚至超越全精度模型,同时显著降低了微调时间和GPU消耗。
📝 摘要(中文)
本文首次探索了参数量化在多模态大语言模型中的潜力,旨在缓解视觉-语言指令微调过程中遇到的巨大资源约束。我们提出了一种基于多模态Warmup的量化感知缩放学习方法,称为QSLAW。该方法基于两个关键创新:(1) 学习量化LLM权重的分组缩放因子,以减轻由激活异常值引起的量化误差,并实现更有效的视觉-语言指令微调;(2) 实施多模态warmup,逐步整合语言和多模态训练样本,从而防止量化模型过度拟合多模态数据,同时确保多模态大语言模型稳定适应下游视觉-语言任务。大量实验表明,通过QSLAW量化的模型性能与甚至超过其全精度模型,同时减少高达1.4倍的视觉-语言微调时间和GPU消耗。我们的代码已在https://github.com/xjjxmu/QSLAW发布。
🔬 方法详解
问题定义:多模态大语言模型(MLLM)在视觉-语言任务上表现出色,但其庞大的参数规模导致指令微调过程需要大量的计算资源。直接对MLLM进行参数量化虽然可以降低资源消耗,但会引入显著的量化误差,导致模型性能下降。现有方法难以在资源受限的情况下,保证量化后MLLM的性能。
核心思路:本文的核心思路是通过量化感知的缩放学习(Quantization-aware Scale Learning)来缓解量化误差。具体来说,针对量化后的LLM权重,学习一组分组缩放因子,以补偿由激活异常值引起的量化误差。此外,采用多模态Warmup策略,逐步引入多模态数据,防止模型在量化后过拟合多模态数据,从而稳定地适应下游视觉-语言任务。
技术框架:QSLAW方法主要包含两个阶段:量化感知缩放学习和多模态Warmup。首先,对预训练的LLM进行量化,得到量化后的权重。然后,引入可学习的分组缩放因子,对量化后的权重进行缩放,并通过视觉-语言指令微调来优化这些缩放因子。同时,采用多模态Warmup策略,从纯语言数据开始,逐步增加多模态数据的比例,以防止模型过拟合多模态数据。
关键创新:本文的关键创新在于提出了量化感知的缩放学习方法,该方法能够有效地缓解量化误差,并提高量化后MLLM的性能。与现有方法相比,QSLAW方法能够更有效地利用视觉-语言指令数据,并防止模型过拟合多模态数据。此外,多模态Warmup策略也是一个重要的创新点,它能够稳定地将MLLM适应到下游视觉-语言任务。
关键设计:在量化感知缩放学习中,将LLM权重分成多个组,并为每个组学习一个缩放因子。缩放因子的优化目标是最小化量化误差。在多模态Warmup中,采用线性增加策略,逐步增加多模态数据的比例。损失函数采用标准的交叉熵损失函数,并对缩放因子进行正则化,以防止其过大。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过QSLAW量化的模型在多个视觉-语言任务上取得了与全精度模型相当甚至更好的性能。例如,在VQA任务上,QSLAW量化的模型性能提升了0.5%。同时,QSLAW方法能够减少高达1.4倍的视觉-语言微调时间和GPU消耗,显著提高了训练效率。
🎯 应用场景
该研究成果可应用于资源受限的场景,例如移动设备或边缘计算设备,使得这些设备也能运行高性能的多模态大语言模型。此外,该方法还可以降低MLLM的训练和部署成本,加速其在各个领域的应用,例如智能助手、图像描述、视觉问答等。
📄 摘要(原文)
This paper presents the first study to explore the potential of parameter quantization for multimodal large language models to alleviate the significant resource constraint encountered during vision-language instruction tuning. We introduce a Quantization-aware Scale LeArning method based on multimodal Warmup, termed QSLAW. This method is grounded in two key innovations: (1) The learning of group-wise scale factors for quantized LLM weights to mitigate the quantization error arising from activation outliers and achieve more effective vision-language instruction tuning; (2) The implementation of a multimodal warmup that progressively integrates linguistic and multimodal training samples, thereby preventing overfitting of the quantized model to multimodal data while ensuring stable adaptation of multimodal large language models to downstream vision-language tasks. Extensive experiments demonstrate that models quantized by QSLAW perform on par with, or even surpass, their full-precision counterparts, while facilitating up to 1.4 times reduction in VL tuning time and GPU consumption. Our code is released at https://github.com/xjjxmu/QSLAW.