One Head Eight Arms: Block Matrix based Low Rank Adaptation for CLIP-based Few-Shot Learning

📄 arXiv: 2501.16720v1 📥 PDF

作者: Chunpeng Zhou, Qianqian Shen, Zhi Yu, Jiajun Bu, Haishuai Wang

分类: cs.CV, cs.AI

发布日期: 2025-01-28

备注: Under Review


💡 一句话要点

提出Block-LoRA,一种基于分块矩阵的低秩适配方法,用于提升CLIP模型在少样本学习中的效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低秩适配 少样本学习 视觉-语言模型 模型微调 分块矩阵

📋 核心要点

  1. 现有VLM微调方法在少样本学习中参数量大、计算成本高昂,限制了其应用。
  2. Block-LoRA通过共享下投影子矩阵的分块低秩分解,降低参数量并将矩阵乘法转化为加法。
  3. 实验表明,Block-LoRA在ImageNet少样本学习中,以更低的资源消耗实现了与SOTA方法相当的性能。

📝 摘要(中文)

本文提出了一种新颖的基于分块矩阵的低秩适配框架,称为Block-LoRA,用于在下游少样本任务上微调视觉-语言基础模型(VLMs)。受到低秩适配(LoRA)的启发,Block-LoRA将LoRA的原始低秩分解矩阵划分为一系列子矩阵,同时共享所有下投影子矩阵。这种结构不仅减少了训练参数的数量,还将某些复杂的矩阵乘法运算转换为更简单的矩阵加法,从而显著降低了微调的计算成本。值得注意的是,Block-LoRA能够在单个24GB GPU上对ImageNet少样本基准进行CLIP微调。此外,Block-LoRA相比于原始LoRA具有更紧的泛化误差界。大量实验表明,在没有额外技巧的情况下,Block-LoRA在保持低训练参数数量和降低计算开销的同时,与最先进的基于CLIP的少样本方法相比,实现了具有竞争力的性能。

🔬 方法详解

问题定义:论文旨在解决视觉-语言基础模型(VLMs)在少样本学习任务中微调时,参数量过大和计算成本过高的问题。现有的微调方法,虽然能够提升性能,但需要大量的计算资源,限制了其在资源受限环境下的应用。

核心思路:论文的核心思路是利用分块矩阵的低秩分解来减少LoRA的训练参数和计算复杂度。通过将原始的低秩矩阵分解为一系列共享下投影子矩阵的子矩阵,Block-LoRA能够在减少参数的同时,将复杂的矩阵乘法运算转化为简单的矩阵加法,从而降低计算成本。

技术框架:Block-LoRA框架基于LoRA,主要包括以下几个步骤:1. 选择需要微调的VLM层;2. 对选定的层应用Block-LoRA,将原始的低秩矩阵分解为一系列子矩阵,并共享下投影子矩阵;3. 在下游少样本任务上进行微调,只更新Block-LoRA引入的参数;4. 使用微调后的模型进行推理。

关键创新:Block-LoRA的关键创新在于其分块矩阵的低秩分解方式。与传统的LoRA相比,Block-LoRA通过共享下投影子矩阵,显著减少了训练参数的数量,并降低了计算复杂度。此外,论文还证明了Block-LoRA相比于原始LoRA具有更紧的泛化误差界。

关键设计:Block-LoRA的关键设计包括:1. 子矩阵的大小:子矩阵的大小会影响参数量和计算复杂度,需要根据具体的任务和资源进行调整;2. 下投影子矩阵的共享方式:论文采用共享所有下投影子矩阵的方式,以最大程度地减少参数量;3. 损失函数:论文使用标准的交叉熵损失函数进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Block-LoRA在ImageNet少样本基准测试中取得了显著成果,能够在单个24GB GPU上完成CLIP模型的微调。实验结果表明,Block-LoRA在保持较低参数量和计算开销的同时,实现了与最先进的基于CLIP的少样本方法具有竞争力的性能。这证明了Block-LoRA在效率和性能之间的良好平衡。

🎯 应用场景

Block-LoRA具有广泛的应用前景,尤其适用于资源受限的场景,例如移动设备或边缘计算平台。它可以用于快速定制视觉-语言模型,以适应各种下游任务,如图像分类、目标检测和图像描述等。该研究有助于推动VLM在实际应用中的普及,并促进人工智能技术的发展。

📄 摘要(原文)

Recent advancements in fine-tuning Vision-Language Foundation Models (VLMs) have garnered significant attention for their effectiveness in downstream few-shot learning tasks.While these recent approaches exhibits some performance improvements, they often suffer from excessive training parameters and high computational costs. To address these challenges, we propose a novel Block matrix-based low-rank adaptation framework, called Block-LoRA, for fine-tuning VLMs on downstream few-shot tasks. Inspired by recent work on Low-Rank Adaptation (LoRA), Block-LoRA partitions the original low-rank decomposition matrix of LoRA into a series of sub-matrices while sharing all down-projection sub-matrices. This structure not only reduces the number of training parameters, but also transforms certain complex matrix multiplication operations into simpler matrix addition, significantly lowering the computational cost of fine-tuning. Notably, Block-LoRA enables fine-tuning CLIP on the ImageNet few-shot benchmark using a single 24GB GPU. We also show that Block-LoRA has the more tighter bound of generalization error than vanilla LoRA. Without bells and whistles, extensive experiments demonstrate that Block-LoRA achieves competitive performance compared to state-of-the-art CLIP-based few-shot methods, while maintaining a low training parameters count and reduced computational overhead.