Propulsion: Steering LLM with Tiny Fine-Tuning

作者: Md Kowsher, Nusrat Jahan Prottasha, Prakash Bhat

分类: cs.CL

发布日期: 2024-09-17 (更新: 2024-12-15)

备注: 26 pages, 11 figures accepted paper

💡 一句话要点

Propulsion：通过微调缩放LLM特定维度，实现高效任务引导。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 大型语言模型 维度缩放 神经正切核 模型微调

📋 核心要点

现有LLM微调计算成本高昂，且容易破坏预训练模型中已学习到的知识，限制了其在资源受限场景下的应用。
Propulsion通过选择性地重新缩放预训练模型的特定维度，引导模型输出，无需修改模型参数，实现高效微调。
实验结果表明，Propulsion在大幅减少可训练参数的同时，保持了与全量微调相当的性能，参数量减少超过10倍。

📝 摘要（中文）

大型语言模型（LLM）的快速发展彻底改变了自然语言处理（NLP）及相关领域。然而，针对特定任务微调这些模型仍然计算成本高昂，并且存在降低预训练特征的风险。为了应对这些挑战，我们提出了一种新颖的参数高效微调（PEFT）方法Propulsion，旨在优化特定任务的性能，同时大幅降低计算开销。受到物理运动中受控调整概念的启发，Propulsion选择性地重新缩放预训练模型的特定维度，引导输出预测朝着任务目标前进，而无需修改模型的参数。通过在预训练层引入轻量级的、可训练的Propulsion参数，我们最大限度地减少了微调期间更新的参数数量，从而防止了过度拟合或覆盖现有知识。我们的理论分析，得到了神经正切核（NTK）理论的支持，表明Propulsion以远少于全量微调的可训练参数，近似实现了全量微调的性能。在实验上，Propulsion将参数数量从3.553亿减少到仅0.086百万，与LoRA等标准方法相比，实现了超过10倍的参数缩减，同时在基准测试中保持了具有竞争力的性能。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）微调过程中计算成本高昂和容易遗忘预训练知识的问题。现有全量微调方法需要更新所有模型参数，计算资源消耗巨大，并且容易导致过拟合，从而降低模型在通用任务上的性能。参数高效微调（PEFT）方法虽然减少了参数量，但在性能上与全量微调仍存在差距。

核心思路：Propulsion的核心思路是借鉴物理运动中“推进”的概念，通过对预训练模型特定维度的缩放来引导模型的输出，使其更符合特定任务的目标。这种方法避免了直接修改模型参数，而是通过引入少量可训练的缩放因子，在不破坏原有知识的基础上，实现对模型的微调。

技术框架：Propulsion方法的核心是在预训练模型的每一层引入可训练的“Propulsion参数”，这些参数用于对该层输出的特定维度进行缩放。在微调过程中，只有这些Propulsion参数会被更新，而预训练模型的原始参数保持不变。整体流程包括：1) 在预训练模型的每一层添加Propulsion参数；2) 使用特定任务的数据集对Propulsion参数进行微调；3) 使用微调后的模型进行推理。

关键创新：Propulsion的关键创新在于其参数更新方式。与传统的微调方法不同，Propulsion不直接修改预训练模型的参数，而是通过缩放特定维度来影响模型的输出。这种方法可以有效地减少需要训练的参数数量，降低计算成本，并防止过拟合。此外，论文还通过神经正切核（NTK）理论证明了Propulsion方法在理论上可以近似全量微调的性能。

关键设计：Propulsion参数是可训练的缩放因子，通常初始化为接近1的值，以保证在微调初期不会对模型的输出产生过大的影响。损失函数通常采用交叉熵损失，用于衡量模型预测结果与真实标签之间的差距。在网络结构方面，Propulsion可以应用于各种类型的预训练模型，包括Transformer、BERT等。关键在于选择合适的维度进行缩放，这可能需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

Propulsion在实验中表现出色，在参数量大幅减少的情况下，性能与全量微调相当。具体而言，Propulsion将参数数量从3.553亿减少到仅0.086百万，与LoRA相比，实现了超过10倍的参数缩减，同时在多个基准测试中保持了具有竞争力的性能。这表明Propulsion是一种高效且有效的参数高效微调方法。

🎯 应用场景

Propulsion方法适用于各种需要对大型语言模型进行微调的场景，例如文本分类、情感分析、问答系统等。尤其适用于资源受限的环境，如移动设备或边缘计算设备。该方法可以降低微调的计算成本，提高微调效率，并保护预训练模型的知识，从而加速LLM在各行业的落地应用。

📄 摘要（原文）

The rapid advancements in Large Language Models (LLMs) have revolutionized natural language processing (NLP) and related fields. However, fine-tuning these models for specific tasks remains computationally expensive and risks degrading pre-learned features. To address these challenges, we propose Propulsion, a novel parameter efficient fine-tuning (PEFT) method designed to optimize task-specific performance while drastically reducing computational overhead. Inspired by the concept of controlled adjustments in physical motion, Propulsion selectively re-scales specific dimensions of a pre-trained model, guiding output predictions toward task objectives without modifying the model's parameters. By introducing lightweight, trainable Propulsion parameters at the pre-trained layer, we minimize the number of parameters updated during fine-tuning, preventing overfitting or overwriting of existing knowledge. Our theoretical analysis, supported by Neural Tangent Kernel (NTK) theory, shows that Propulsion approximates the performance of full fine-tuning with far fewer trainable parameters. Empirically, Propulsion reduces the parameter count from 355.3 million to just 0.086 million, achieving over a 10x reduction compared to standard approaches like LoRA while maintaining competitive performance across benchmarks.

Propulsion: Steering LLM with Tiny Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理