Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models

📄 arXiv: 2408.14470v3 📥 PDF

作者: Aradhye Agarwal, Suhas K Ramesh, Ayan Sengupta, Tanmoy Chakraborty

分类: cs.CL

发布日期: 2024-08-26 (更新: 2025-06-23)

备注: 15 pages, 7 tables, 9 figures


💡 一句话要点

提出ID³动态解掩参数高效微调LLM,提升计算效率并兼顾性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 大语言模型 动态参数选择 计算效率 自然语言处理

📋 核心要点

  1. 现有选择性PEFT方法采用固定参数集,无法动态捕捉参数重要性,导致微调性能受限。
  2. ID³通过持续计算参数重要性,动态解掩参数,平衡探索与利用,实现更高效的微调。
  3. 实验证明ID³在多个任务上优于固定掩码PEFT,并能减少梯度更新次数,提升计算效率。

📝 摘要(中文)

在大语言模型(LLM)的下游任务微调中,需要大量的计算资源。选择性参数高效微调(PEFT)方法旨在通过仅微调一小部分模型参数来缓解这些计算挑战。尽管参数高效,但由于参数选择过程中引入的固有偏差,这些技术通常无法与完全微调的模型相媲美。传统的选择性PEFT技术使用一组固定的参数,这些参数是使用不同的重要性启发式方法选择的,无法动态地捕获参数重要性,并且常常导致次优性能。我们提出了一种新的选择性PEFT方法$ ext{ID}^3$,该方法持续计算参数重要性,并通过平衡参数选择中的探索和利用来动态地解掩参数。我们对涵盖自然语言理解、数学推理和摘要的16个任务的实证研究表明,与固定掩码选择性PEFT技术相比,我们的方法是有效的。我们分析表明,$ ext{ID}^3$将梯度更新的数量减少了两倍,从而提高了计算效率。由于$ ext{ID}^3$对神经元的随机初始化具有鲁棒性,并直接在优化过程中运行,因此它具有高度的灵活性,并且可以与现有的基于加法和重参数化的PEFT技术(例如,适配器和LoRA)集成。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)微调过程中计算资源消耗过大的问题。现有的选择性参数高效微调(PEFT)方法虽然减少了参数量,但由于静态选择参数,无法动态适应任务需求,导致性能不如全量微调。

核心思路:论文的核心思路是动态地评估和选择需要微调的参数。通过持续计算参数的重要性,并根据重要性动态地“解掩”(unmask)参数,从而在探索新的参数组合和利用已知重要参数之间取得平衡。这种动态调整的方式能够更好地适应不同的下游任务,提升微调性能。

技术框架:ID³方法主要包含以下几个阶段:1. 初始化:对模型参数进行初始化。2. 重要性评估:使用某种指标(具体细节未知)持续评估每个参数的重要性。3. 参数解掩:根据参数的重要性,动态地选择一部分参数进行微调,其余参数保持冻结。4. 梯度更新:仅对解掩的参数进行梯度更新。5. 迭代:重复步骤2-4,直到模型收敛。

关键创新:ID³的关键创新在于其动态参数选择机制。与传统的选择性PEFT方法不同,ID³不是预先选择一组固定的参数,而是在训练过程中不断地调整需要微调的参数集合。这种动态调整能够更好地适应任务需求,避免了静态选择带来的偏差。

关键设计:论文中提到ID³对神经元的随机初始化具有鲁棒性,并且可以直接在优化过程中运行,这表明该方法的设计与具体的优化器无关,具有较强的通用性。此外,ID³可以与现有的基于加法和重参数化的PEFT技术(例如,适配器和LoRA)集成,进一步提升了其灵活性和实用性。具体的参数重要性评估指标、解掩策略以及探索与利用的平衡策略等关键设计细节在摘要中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ID³在16个涵盖自然语言理解、数学推理和摘要的任务上,优于传统的固定掩码选择性PEFT技术。分析表明,ID³能够将梯度更新的数量减少两倍,从而显著提高计算效率。具体的性能提升幅度在摘要中未给出,属于未知信息。

🎯 应用场景

ID³方法可应用于各种需要对大型语言模型进行微调的场景,例如自然语言理解、文本生成、机器翻译等。该方法能够显著降低微调所需的计算资源,使得在资源受限的环境下也能高效地进行模型定制。未来,该方法有望推动LLM在边缘设备和移动端的部署。

📄 摘要(原文)

Fine-tuning large language models (LLMs) on downstream tasks requires substantial computational resources. Selective PEFT, a class of parameter-efficient fine-tuning (PEFT) methodologies, aims to mitigate these computational challenges by selectively fine-tuning only a small fraction of the model parameters. Although parameter-efficient, these techniques often fail to match the performance of fully fine-tuned models, primarily due to inherent biases introduced during parameter selection. Traditional selective PEFT techniques use a fixed set of parameters selected using different importance heuristics, failing to capture parameter importance dynamically and often leading to suboptimal performance. We introduce $\text{ID}^3$, a novel selective PEFT method that calculates parameter importance continually, and dynamically unmasks parameters by balancing exploration and exploitation in parameter selection. Our empirical study on 16 tasks spanning natural language understanding, mathematical reasoning and summarization demonstrates the effectiveness of our method compared to fixed-masking selective PEFT techniques. We analytically show that $\text{ID}^3$ reduces the number of gradient updates by a factor of two, enhancing computational efficiency. Since $\text{ID}^3$ is robust to random initialization of neurons and operates directly on the optimization process, it is highly flexible and can be integrated with existing additive and reparametrization-based PEFT techniques such as adapters and LoRA respectively.