Partial Fine-Tuning: A Successor to Full Fine-Tuning for Vision Transformers

作者: Peng Ye, Yongqi Huang, Chongjun Tu, Minglei Li, Tao Chen, Tong He, Wanli Ouyang

分类: cs.CV, cs.AI

发布日期: 2023-12-25

💡 一句话要点

提出Partial Fine-Tuning，提升Vision Transformer微调效率与性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Partial Fine-Tuning Vision Transformer 参数高效微调 模型微调 模型融合 微调角度度量 层选择

📋 核心要点

现有全量微调计算成本高昂，参数高效微调性能受限，难以兼顾效率与精度。
提出Partial Fine-Tuning，通过选择性地微调部分层或模块，在效率和性能间取得平衡。
实验证明，特定Partial Fine-Tuning策略优于全量微调，并可作为模型融合的新维度。

📝 摘要（中文）

预训练模型微调在各个研究领域日益普及。现有的微调方法大致可分为参数高效微调和高性能微调。前者旨在提高效率，而后者侧重于增强性能。本文提出Partial Fine-Tuning，它是一种创新且有前景的方向，能够同时提高效率和准确性。首先，验证了八种手动定义的partial fine-tuning策略在各种数据集和Vision Transformer架构上的有效性，发现一些策略（例如，仅微调FFN或仅微调Attention）可以用比全量微调更少的参数实现更好的性能，并且选择合适的层对partial fine-tuning至关重要。因此，提出了一种新的微调角度度量来指导partial fine-tuning的层选择，使其能够灵活地适应各种场景，从而实现更实用的partial fine-tuning。此外，本文还表明，partial fine-tuning可以作为模型融合的一个新维度，以更少的微调参数提高模型性能和泛化能力。在各种数据集和模型上的综合实验验证了partial fine-tuning的巨大潜力。

🔬 方法详解

问题定义：现有Vision Transformer的微调方法要么是全量微调，计算成本高，要么是参数高效微调，但性能提升有限。因此，需要一种方法，能够在保证性能的同时，降低微调的计算成本。

核心思路：论文的核心思路是只微调网络中的一部分参数，而不是全部参数。通过选择性地微调部分层或模块（例如，只微调FFN或Attention），可以在减少计算量的同时，获得与全量微调相当甚至更好的性能。这种方法的关键在于如何选择需要微调的层或模块。

技术框架：该方法首先验证了手动定义的Partial Fine-Tuning策略的有效性，然后提出了一种基于微调角度度量的层选择方法。该度量用于评估不同层在微调过程中的重要性，并选择最相关的层进行微调。此外，Partial Fine-Tuning还可以与模型融合技术结合，进一步提高模型性能。

关键创新：该方法最重要的创新点在于提出了Partial Fine-Tuning的概念，并提供了一种基于微调角度度量的层选择方法。与现有方法相比，Partial Fine-Tuning能够在效率和性能之间取得更好的平衡。

关键设计：论文提出了一个微调角度度量来指导层的选择。具体来说，该度量计算了微调前后各层参数变化的角度，角度越大，说明该层对特定任务越重要，越需要进行微调。此外，论文还探索了不同的Partial Fine-Tuning策略，例如只微调FFN或Attention模块，并分析了它们在不同数据集和模型上的表现。

📊 实验亮点

实验结果表明，某些Partial Fine-Tuning策略（例如，仅微调FFN或Attention）可以用比全量微调更少的参数实现更好的性能。此外，提出的微调角度度量能够有效地选择需要微调的层，从而进一步提高模型性能。Partial Fine-Tuning与模型融合结合，可以进一步提升模型性能和泛化能力。

🎯 应用场景

Partial Fine-Tuning可广泛应用于各种视觉任务，尤其是在计算资源受限的场景下，例如移动设备上的图像分类、目标检测等。该方法还可以用于加速模型开发和部署，并提高模型的泛化能力。未来，Partial Fine-Tuning有望成为预训练模型微调的标准方法之一。

📄 摘要（原文）

Fine-tuning pre-trained foundation models has gained significant popularity in various research fields. Existing methods for fine-tuning can be roughly divided into two categories, namely Parameter-Efficient Fine-Tuning and High-Performance Fine-Tuning. The former aims at improving efficiency, while the latter focuses on enhancing performance. Beyond these methods, we demonstrate that Partial Fine-Tuning can be an innovative and promising direction capable of concurrently enhancing both efficiency and accuracy. We first validate eight manually-defined partial fine-tuning strategies across kinds of datasets and vision transformer architectures, and find that some partial fine-tuning strategies (e.g., ffn only or attention only) can achieve better performance with fewer tuned parameters than full fine-tuning, and selecting appropriate layers is critical to partial fine-tuning. Thus, we propose a novel fine-tuned angle metric to guide the selection of appropriate layers for partial fine-tuning, making it flexible to be adapted to various scenarios for more practicable partial fine-tuning. Additionally, we show that partial fine-tuning can serve as a new dimension for Model Soups, improving both the model performance and generalization with fewer tuned parameters. Comprehensive experiments on a wide range of datasets and models validate the great potential of partial fine-tuning.

Partial Fine-Tuning: A Successor to Full Fine-Tuning for Vision Transformers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册