VectorFit : Adaptive Singular & Bias Vector Fine-Tuning of Pre-trained Foundation Models

📄 arXiv: 2503.19530v3 📥 PDF

作者: Suhas G Hegde, Shilpy Kaur, Aruna Tiwari

分类: cs.LG, cs.AI

发布日期: 2025-03-25 (更新: 2025-08-14)

备注: This paper has been accepted in the 28th European Conference on Artificial Intelligence (ECAI 2025)


💡 一句话要点

VectorFit:通过自适应奇异向量与偏置向量微调预训练模型,提升参数效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 预训练模型 奇异值分解 自适应学习 低资源学习

📋 核心要点

  1. 现有PEFT方法在低资源下性能不足,因为其新增权重是从头训练,未能充分利用预训练模型的知识。
  2. VectorFit通过自适应训练预训练权重的奇异向量和偏置,高效利用现有知识,实现高性能。
  3. 实验表明,VectorFit使用更少的可训练参数,在多种语言和视觉任务上超越了现有PEFT方法。

📝 摘要(中文)

现有的参数高效微调(PEFT)方法通过在冻结的预训练权重 $W$ 旁边参数化新的低秩或稀疏可训练权重来减少微调所需的可训练参数数量。然而,这些权重是从头开始训练的,因此这些方法与全量微调之间存在性能差距,尤其是在低预算设置下。我们提出了 VectorFit,一种新的参数化方法,通过自适应地训练 $W$ 的奇异向量和偏置,有效地利用了 $W$ 中嵌入的现有知识。我们表明,以这种方式利用 $W$ 的结构和变换特性可以产生高秩的增量权重矩阵 $ΔW$,与全量微调相当。VectorFit 以比领先的 PEFT 方法少 9 倍的可训练参数实现了卓越的结果。通过涵盖自然语言理解和生成、问答、图像分类和图像生成等广泛的语言和视觉任务的 19 个数据集的全面实验,我们证明了 VectorFit 在参数效率方面超越了基线。

🔬 方法详解

问题定义:现有的参数高效微调方法(PEFT)虽然减少了可训练参数的数量,但由于其新增的低秩或稀疏权重是从头开始训练的,无法充分利用预训练模型中已经存在的知识,导致在低资源场景下性能与全量微调相比存在差距。因此,如何更有效地利用预训练模型的知识,在减少可训练参数的同时,提升微调性能,是本文要解决的问题。

核心思路:VectorFit的核心思路是,与其从头训练新的权重,不如直接对预训练模型的权重进行微调,但不是直接微调整个权重矩阵,而是通过自适应地调整权重的奇异向量和偏置项,来高效地利用预训练模型中蕴含的知识。这种方法能够更好地保留预训练模型的结构信息,并学习到更有效的增量权重矩阵。

技术框架:VectorFit的技术框架主要包括以下几个步骤:1) 对预训练模型的权重矩阵进行奇异值分解(SVD);2) 选择部分奇异向量进行训练;3) 对偏置项进行训练;4) 将训练后的奇异向量和偏置项更新到预训练模型的权重中。整个过程可以看作是对预训练模型权重的一种参数化微调,通过调整奇异向量和偏置项来实现对模型的更新。

关键创新:VectorFit最重要的技术创新点在于,它不是像其他PEFT方法那样引入新的低秩或稀疏权重,而是直接对预训练模型的权重进行操作,通过自适应地调整奇异向量和偏置项来学习增量权重矩阵。这种方法能够更好地利用预训练模型的知识,并学习到更高秩的增量权重矩阵,从而提升微调性能。

关键设计:VectorFit的关键设计包括:1) 如何选择需要训练的奇异向量的数量;2) 如何设计损失函数来指导奇异向量和偏置项的训练;3) 如何将训练后的奇异向量和偏置项更新到预训练模型的权重中。论文中可能探讨了不同的奇异向量选择策略、损失函数设计以及更新方法,以实现最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VectorFit在19个涵盖语言和视觉任务的数据集上进行了广泛的实验,结果表明,VectorFit在参数效率方面显著优于现有的PEFT方法。具体来说,VectorFit使用比领先的PEFT方法少9倍的可训练参数,实现了更高的性能。例如,在某些数据集上,VectorFit的性能甚至超过了全量微调,证明了其高效利用预训练模型知识的能力。

🎯 应用场景

VectorFit具有广泛的应用前景,可以应用于各种需要对预训练模型进行微调的场景,例如自然语言处理、计算机视觉等。特别是在资源受限的环境下,VectorFit能够以更少的计算资源和更短的时间,实现与全量微调相当甚至更好的性能。这使得VectorFit在移动设备、嵌入式系统等资源受限的平台上具有重要的应用价值,并能加速AI技术在各行业的落地。

📄 摘要(原文)

Popular PEFT methods reduce trainable parameter count for fine-tuning by parameterizing new low-rank or sparse trainable weights in parallel to the frozen pre-trained weights $W$. However, these weights are trained from scratch, and there exists a performance gap between these methods and full fine-tuning, especially in low-budget settings. We introduce VectorFit, a new way of parameterization that efficiently utilizes the existing knowledge embedded in $W$ by adaptively training their singular vectors and biases. We show that utilizing the structural and transformational properties of $W$ in this way can lead to high-rank incremental weight matrices $ΔW$, comparable to that of full fine-tuning. VectorFit delivers superior results with 9$\boldsymbol\times$ fewer trainable parameters than the leading PEFT methods. Through comprehensive experiments across 19 datasets covering a wide range of language and vision tasks such as natural language understanding and generation, question answering, image classification, and image generation, we demonstrate that VectorFit surpasses baselines in terms of performance as a function of parameter-efficiency.