Partial Fine-Tuning: A Successor to Full Fine-Tuning for Vision Transformers

📄 arXiv: 2312.15681v1 📥 PDF

作者: Peng Ye, Yongqi Huang, Chongjun Tu, Minglei Li, Tao Chen, Tong He, Wanli Ouyang

分类: cs.CV, cs.AI

发布日期: 2023-12-25


💡 一句话要点

提出Partial Fine-Tuning,提升Vision Transformer微调效率与性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Partial Fine-Tuning Vision Transformer 参数高效微调 模型微调 模型融合 微调角度度量 层选择

📋 核心要点

  1. 现有全量微调计算成本高昂,参数高效微调性能受限,难以兼顾效率与精度。
  2. 提出Partial Fine-Tuning,通过选择性地微调部分层或模块,在效率和性能间取得平衡。
  3. 实验证明,特定Partial Fine-Tuning策略优于全量微调,并可作为模型融合的新维度。

📝 摘要(中文)

预训练模型微调在各个研究领域日益普及。现有的微调方法大致可分为参数高效微调和高性能微调。前者旨在提高效率,而后者侧重于增强性能。本文提出Partial Fine-Tuning,它是一种创新且有前景的方向,能够同时提高效率和准确性。首先,验证了八种手动定义的partial fine-tuning策略在各种数据集和Vision Transformer架构上的有效性,发现一些策略(例如,仅微调FFN或仅微调Attention)可以用比全量微调更少的参数实现更好的性能,并且选择合适的层对partial fine-tuning至关重要。因此,提出了一种新的微调角度度量来指导partial fine-tuning的层选择,使其能够灵活地适应各种场景,从而实现更实用的partial fine-tuning。此外,本文还表明,partial fine-tuning可以作为模型融合的一个新维度,以更少的微调参数提高模型性能和泛化能力。在各种数据集和模型上的综合实验验证了partial fine-tuning的巨大潜力。

🔬 方法详解

问题定义:现有Vision Transformer的微调方法要么是全量微调,计算成本高,要么是参数高效微调,但性能提升有限。因此,需要一种方法,能够在保证性能的同时,降低微调的计算成本。

核心思路:论文的核心思路是只微调网络中的一部分参数,而不是全部参数。通过选择性地微调部分层或模块(例如,只微调FFN或Attention),可以在减少计算量的同时,获得与全量微调相当甚至更好的性能。这种方法的关键在于如何选择需要微调的层或模块。

技术框架:该方法首先验证了手动定义的Partial Fine-Tuning策略的有效性,然后提出了一种基于微调角度度量的层选择方法。该度量用于评估不同层在微调过程中的重要性,并选择最相关的层进行微调。此外,Partial Fine-Tuning还可以与模型融合技术结合,进一步提高模型性能。

关键创新:该方法最重要的创新点在于提出了Partial Fine-Tuning的概念,并提供了一种基于微调角度度量的层选择方法。与现有方法相比,Partial Fine-Tuning能够在效率和性能之间取得更好的平衡。

关键设计:论文提出了一个微调角度度量来指导层的选择。具体来说,该度量计算了微调前后各层参数变化的角度,角度越大,说明该层对特定任务越重要,越需要进行微调。此外,论文还探索了不同的Partial Fine-Tuning策略,例如只微调FFN或Attention模块,并分析了它们在不同数据集和模型上的表现。

📊 实验亮点

实验结果表明,某些Partial Fine-Tuning策略(例如,仅微调FFN或Attention)可以用比全量微调更少的参数实现更好的性能。此外,提出的微调角度度量能够有效地选择需要微调的层,从而进一步提高模型性能。Partial Fine-Tuning与模型融合结合,可以进一步提升模型性能和泛化能力。

🎯 应用场景

Partial Fine-Tuning可广泛应用于各种视觉任务,尤其是在计算资源受限的场景下,例如移动设备上的图像分类、目标检测等。该方法还可以用于加速模型开发和部署,并提高模型的泛化能力。未来,Partial Fine-Tuning有望成为预训练模型微调的标准方法之一。

📄 摘要(原文)

Fine-tuning pre-trained foundation models has gained significant popularity in various research fields. Existing methods for fine-tuning can be roughly divided into two categories, namely Parameter-Efficient Fine-Tuning and High-Performance Fine-Tuning. The former aims at improving efficiency, while the latter focuses on enhancing performance. Beyond these methods, we demonstrate that Partial Fine-Tuning can be an innovative and promising direction capable of concurrently enhancing both efficiency and accuracy. We first validate eight manually-defined partial fine-tuning strategies across kinds of datasets and vision transformer architectures, and find that some partial fine-tuning strategies (e.g., ffn only or attention only) can achieve better performance with fewer tuned parameters than full fine-tuning, and selecting appropriate layers is critical to partial fine-tuning. Thus, we propose a novel fine-tuned angle metric to guide the selection of appropriate layers for partial fine-tuning, making it flexible to be adapted to various scenarios for more practicable partial fine-tuning. Additionally, we show that partial fine-tuning can serve as a new dimension for Model Soups, improving both the model performance and generalization with fewer tuned parameters. Comprehensive experiments on a wide range of datasets and models validate the great potential of partial fine-tuning.