FISH-Tuning: Enhancing PEFT Methods with Fisher Information
作者: Kang Xue, Ming Dong, Xinhui Tu, Tingting He
分类: cs.CL
发布日期: 2025-04-05 (更新: 2025-05-25)
💡 一句话要点
FISH-Tuning:利用Fisher信息增强参数高效微调方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 参数高效微调 Fisher信息 大型语言模型 LoRA Adapter
📋 核心要点
- 现有PEFT方法(如LoRA、Adapter)虽然减少了微调参数量,但新增参数仍有优化空间,存在资源浪费。
- FISH-Tuning利用Fisher信息选择PEFT方法中新增参数的关键子集进行微调,提高参数利用率。
- 实验表明,在相同可训练参数比例下,FISH-Tuning优于原始PEFT方法,且不增加训练/推理负担。
📝 摘要(中文)
大型语言模型(LLMs)参数规模的快速增长推动了参数高效微调(PEFT)方法的发展,以减轻微调带来的巨大计算成本。其中,Fisher Induced Sparse uncHanging (FISH) Mask是一种基于选择的PEFT技术,它使用近似Fisher信息来识别预训练参数的关键子集。虽然像LoRA和Adapter这样的加法和重参数化PEFT方法已经只微调少量参数,但这些方法中新引入的参数本身也存在进一步优化的机会。选择性地微调这些新增参数中最有影响力的部分,可以在保持甚至提高微调效果的同时,进一步降低资源消耗。在本文中,我们提出了一种新颖的方法FISH-Tuning,它将FISH Mask集成到LoRA、Adapter及其变体等PEFT方法中。通过利用Fisher信息来识别和更新这些添加或重参数化组件中最重要的参数,FISH-Tuning旨在实现卓越的性能,而与原始PEFT方法相比,不会增加训练时间或推理延迟。在各种数据集和预训练模型上的实验结果表明,当使用相同比例的可训练参数时,FISH-Tuning始终优于原始PEFT方法。代码可在https://anonymous.4open.science/r/FISH-Tuning-6F7C获取。
🔬 方法详解
问题定义:论文旨在解决现有参数高效微调(PEFT)方法中,新增参数的利用率不高的问题。即使是LoRA和Adapter等方法,虽然只微调少量参数,但其引入的新参数仍然存在冗余,并非所有参数都对模型性能有同等贡献。微调所有新增参数会造成不必要的计算资源浪费,且可能影响模型性能。
核心思路:论文的核心思路是利用Fisher信息来评估PEFT方法中新增参数的重要性,并仅选择最重要的参数进行微调。Fisher信息能够反映参数对模型输出的影响程度,因此可以作为参数选择的依据。通过只微调对模型性能影响最大的参数,可以提高参数利用率,减少计算资源消耗,并可能提升模型性能。
技术框架:FISH-Tuning的整体框架是将FISH Mask集成到现有的PEFT方法中,例如LoRA、Adapter及其变体。具体流程如下:1) 使用原始PEFT方法初始化模型;2) 使用少量数据计算新增参数的Fisher信息;3) 根据Fisher信息选择最重要的参数子集;4) 仅微调选定的参数子集。
关键创新:该方法最重要的创新点在于将Fisher信息引入到PEFT方法的新增参数选择中。与传统的随机选择或均匀选择相比,基于Fisher信息的选择能够更准确地识别对模型性能至关重要的参数,从而实现更高效的微调。
关键设计:关键设计包括:1) Fisher信息的计算方式:论文采用近似Fisher信息来降低计算复杂度;2) 参数选择策略:根据Fisher信息的大小,选择top-k个参数进行微调;3) 集成方式:将FISH Mask无缝集成到现有的PEFT方法中,无需修改原始PEFT方法的结构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在各种数据集和预训练模型上,FISH-Tuning始终优于原始PEFT方法。例如,在相同可训练参数比例下,FISH-Tuning在多个NLP任务上取得了显著的性能提升,证明了其有效性。具体性能数据可在论文原文中查阅。
🎯 应用场景
FISH-Tuning可广泛应用于各种需要高效微调大型语言模型的场景,例如:资源受限的边缘设备部署、快速模型定制、以及大规模模型训练等。该方法能够降低微调成本,提高模型性能,加速LLM在各行业的落地。
📄 摘要(原文)
The rapid growth in the parameter size of Large Language Models (LLMs) has spurred the development of Parameter-Efficient Fine-Tuning (PEFT) methods to mitigate the substantial computational costs of fine-tuning. Among these, Fisher Induced Sparse uncHanging (FISH) Mask is a selection-based PEFT technique that identifies a critical subset of pre-trained parameters using approximate Fisher information. While addition-based and reparameterization-based PEFT methods like LoRA and Adapter already fine-tune only a small number of parameters, the newly introduced parameters within these methods themselves present an opportunity for further optimization. Selectively fine-tuning only the most impactful among these new parameters could further reduce resource consumption while maintaining, or even improving, fine-tuning effectiveness. In this paper, we propose \textbf{FISH-Tuning}, a novel approach that incorporates FISH Mask into such PEFT methods, including LoRA, Adapter, and their variants. By leveraging Fisher information to identify and update only the most significant parameters within these added or reparameterized components, FISH-Tuning aims to achieve superior performance without increasing training time or inference latency compared to the vanilla PEFT methods. Experimental results across various datasets and pre-trained models demonstrate that FISH-Tuning consistently outperforms the vanilla PEFT methods when using the same proportion of trainable parameters. Code is available at https://anonymous.4open.science/r/FISH-Tuning-6F7C.