Propulsion: Steering LLM with Tiny Fine-Tuning

📄 arXiv: 2409.10927v3 📥 PDF

作者: Md Kowsher, Nusrat Jahan Prottasha, Prakash Bhat

分类: cs.CL

发布日期: 2024-09-17 (更新: 2024-12-15)

备注: 26 pages, 11 figures accepted paper


💡 一句话要点

Propulsion:通过微调缩放LLM特定维度,实现高效任务引导。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 大型语言模型 维度缩放 神经正切核 模型微调

📋 核心要点

  1. 现有LLM微调计算成本高昂,且容易破坏预训练模型中已学习到的知识,限制了其在资源受限场景下的应用。
  2. Propulsion通过选择性地重新缩放预训练模型的特定维度,引导模型输出,无需修改模型参数,实现高效微调。
  3. 实验结果表明,Propulsion在大幅减少可训练参数的同时,保持了与全量微调相当的性能,参数量减少超过10倍。

📝 摘要(中文)

大型语言模型(LLM)的快速发展彻底改变了自然语言处理(NLP)及相关领域。然而,针对特定任务微调这些模型仍然计算成本高昂,并且存在降低预训练特征的风险。为了应对这些挑战,我们提出了一种新颖的参数高效微调(PEFT)方法Propulsion,旨在优化特定任务的性能,同时大幅降低计算开销。受到物理运动中受控调整概念的启发,Propulsion选择性地重新缩放预训练模型的特定维度,引导输出预测朝着任务目标前进,而无需修改模型的参数。通过在预训练层引入轻量级的、可训练的Propulsion参数,我们最大限度地减少了微调期间更新的参数数量,从而防止了过度拟合或覆盖现有知识。我们的理论分析,得到了神经正切核(NTK)理论的支持,表明Propulsion以远少于全量微调的可训练参数,近似实现了全量微调的性能。在实验上,Propulsion将参数数量从3.553亿减少到仅0.086百万,与LoRA等标准方法相比,实现了超过10倍的参数缩减,同时在基准测试中保持了具有竞争力的性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)微调过程中计算成本高昂和容易遗忘预训练知识的问题。现有全量微调方法需要更新所有模型参数,计算资源消耗巨大,并且容易导致过拟合,从而降低模型在通用任务上的性能。参数高效微调(PEFT)方法虽然减少了参数量,但在性能上与全量微调仍存在差距。

核心思路:Propulsion的核心思路是借鉴物理运动中“推进”的概念,通过对预训练模型特定维度的缩放来引导模型的输出,使其更符合特定任务的目标。这种方法避免了直接修改模型参数,而是通过引入少量可训练的缩放因子,在不破坏原有知识的基础上,实现对模型的微调。

技术框架:Propulsion方法的核心是在预训练模型的每一层引入可训练的“Propulsion参数”,这些参数用于对该层输出的特定维度进行缩放。在微调过程中,只有这些Propulsion参数会被更新,而预训练模型的原始参数保持不变。整体流程包括:1) 在预训练模型的每一层添加Propulsion参数;2) 使用特定任务的数据集对Propulsion参数进行微调;3) 使用微调后的模型进行推理。

关键创新:Propulsion的关键创新在于其参数更新方式。与传统的微调方法不同,Propulsion不直接修改预训练模型的参数,而是通过缩放特定维度来影响模型的输出。这种方法可以有效地减少需要训练的参数数量,降低计算成本,并防止过拟合。此外,论文还通过神经正切核(NTK)理论证明了Propulsion方法在理论上可以近似全量微调的性能。

关键设计:Propulsion参数是可训练的缩放因子,通常初始化为接近1的值,以保证在微调初期不会对模型的输出产生过大的影响。损失函数通常采用交叉熵损失,用于衡量模型预测结果与真实标签之间的差距。在网络结构方面,Propulsion可以应用于各种类型的预训练模型,包括Transformer、BERT等。关键在于选择合适的维度进行缩放,这可能需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Propulsion在实验中表现出色,在参数量大幅减少的情况下,性能与全量微调相当。具体而言,Propulsion将参数数量从3.553亿减少到仅0.086百万,与LoRA相比,实现了超过10倍的参数缩减,同时在多个基准测试中保持了具有竞争力的性能。这表明Propulsion是一种高效且有效的参数高效微调方法。

🎯 应用场景

Propulsion方法适用于各种需要对大型语言模型进行微调的场景,例如文本分类、情感分析、问答系统等。尤其适用于资源受限的环境,如移动设备或边缘计算设备。该方法可以降低微调的计算成本,提高微调效率,并保护预训练模型的知识,从而加速LLM在各行业的落地应用。

📄 摘要(原文)

The rapid advancements in Large Language Models (LLMs) have revolutionized natural language processing (NLP) and related fields. However, fine-tuning these models for specific tasks remains computationally expensive and risks degrading pre-learned features. To address these challenges, we propose Propulsion, a novel parameter efficient fine-tuning (PEFT) method designed to optimize task-specific performance while drastically reducing computational overhead. Inspired by the concept of controlled adjustments in physical motion, Propulsion selectively re-scales specific dimensions of a pre-trained model, guiding output predictions toward task objectives without modifying the model's parameters. By introducing lightweight, trainable Propulsion parameters at the pre-trained layer, we minimize the number of parameters updated during fine-tuning, preventing overfitting or overwriting of existing knowledge. Our theoretical analysis, supported by Neural Tangent Kernel (NTK) theory, shows that Propulsion approximates the performance of full fine-tuning with far fewer trainable parameters. Empirically, Propulsion reduces the parameter count from 355.3 million to just 0.086 million, achieving over a 10x reduction compared to standard approaches like LoRA while maintaining competitive performance across benchmarks.