Parameter Importance is Not Static: Evolving Parameter Isolation for Supervised Fine-Tuning

📄 arXiv: 2604.14010v1 📥 PDF

作者: Zekai Lin, Chao Xue, Di Liang, Xingsheng Han, Peiyang Liu, Xianjie Wu, Lei Jiang, Yu Lu, Haibo Shi, Shuang Liang, Minlong Peng

分类: cs.LG, cs.CL

发布日期: 2026-04-15


💡 一句话要点

提出EPI动态参数隔离框架,解决SFT中参数重要性随时间演变的问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 监督微调 参数隔离 灾难性遗忘 多任务学习 动态隔离 梯度估计 模型泛化

📋 核心要点

  1. 监督微调中,静态参数隔离方法无法适应参数重要性随训练动态变化的问题。
  2. EPI框架通过在线估计参数重要性,动态调整隔离策略,保护关键参数并释放过时参数。
  3. 实验证明,EPI能有效减少任务干扰和灾难性遗忘,提升模型泛化能力。

📝 摘要(中文)

大型语言模型的监督微调(SFT)常受任务干扰和灾难性遗忘的影响。现有方法通过隔离训练期间的关键参数来缓解此问题。然而,这些方法将参数重要性视为静态不变,忽略了其动态变化。本文通过实验证明,参数重要性随训练过程发生时间漂移。为此,我们提出了一种演进参数隔离(EPI)微调框架,该框架基于参数重要性的在线估计来调整隔离决策。EPI不冻结固定的参数子集,而是使用基于梯度的信号定期更新隔离掩码,使模型能够保护新出现的关键参数,同时释放过时的参数以恢复可塑性。在多任务基准上的实验表明,与静态隔离和标准微调相比,EPI始终能减少干扰和遗忘,同时提高整体泛化能力。我们的分析强调了隔离机制与学习不同能力演变动态同步的必要性。

🔬 方法详解

问题定义:监督微调(SFT)旨在使大型语言模型适应特定任务。然而,SFT 经常面临任务间的干扰和灾难性遗忘问题,即模型在学习新任务时忘记了先前任务的知识。现有的参数隔离方法试图通过在训练期间冻结或保护对特定任务重要的参数来解决这个问题。这些方法的一个主要痛点是它们假设参数的重要性是静态的,一旦确定就不会改变,这与实际情况不符。

核心思路:本文的核心思路是认识到参数的重要性是随时间演变的。因此,需要一种动态的参数隔离机制,能够根据训练的进展自适应地调整隔离策略。EPI 的设计理念是周期性地重新评估参数的重要性,并相应地更新隔离掩码,从而保护新出现的关键参数,同时释放不再重要的参数,以恢复模型的可塑性。

技术框架:EPI 框架包含以下主要步骤:1) 初始化:使用预训练的大型语言模型。2) 训练:在训练过程中,EPI 周期性地(例如,每隔几个训练步骤)执行以下操作:a) 参数重要性估计:使用基于梯度的信号(例如,梯度范数)来估计每个参数的重要性。b) 隔离掩码更新:根据参数重要性估计结果,更新隔离掩码。重要性高的参数被保护(不更新),重要性低的参数被释放(允许更新)。c) 模型更新:使用更新后的隔离掩码进行正常的梯度下降更新。3) 评估:在验证集或测试集上评估模型的性能。

关键创新:EPI 最重要的技术创新点在于其动态的参数隔离机制。与静态隔离方法不同,EPI 能够根据训练的进展自适应地调整隔离策略,从而更好地平衡任务间的学习和避免灾难性遗忘。这种动态性使得模型能够更好地适应不同任务的需求,并提高整体的泛化能力。

关键设计:EPI 的关键设计包括:1) 参数重要性估计方法:可以使用不同的基于梯度的信号来估计参数的重要性,例如梯度范数、梯度幅度等。论文中具体使用了哪种方法未知。2) 隔离掩码更新策略:需要确定如何根据参数重要性估计结果来更新隔离掩码。例如,可以设置一个阈值,将重要性高于阈值的参数设置为保护状态,低于阈值的参数设置为释放状态。3) 隔离周期:需要确定多久更新一次隔离掩码。更新频率过高可能会导致训练不稳定,更新频率过低则可能无法及时适应参数重要性的变化。4) 损失函数:可以使用标准的交叉熵损失函数或其他适合特定任务的损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EPI 在多个多任务基准测试中优于静态参数隔离方法和标准微调方法。具体来说,EPI 能够显著减少任务间的干扰和灾难性遗忘,同时提高整体的泛化能力。具体的性能提升幅度未知,但论文强调了 EPI 的一致性改进。

🎯 应用场景

EPI 框架可应用于各种需要对大型语言模型进行微调的场景,尤其是在多任务学习、持续学习和领域自适应等领域。例如,可以利用 EPI 框架来训练一个能够同时处理多种自然语言处理任务的模型,或者使模型能够持续学习新的知识而不会忘记旧的知识。该研究有助于提升AI模型在复杂任务环境中的适应性和鲁棒性。

📄 摘要(原文)

Supervised Fine-Tuning (SFT) of large language models often suffers from task interference and catastrophic forgetting. Recent approaches alleviate this issue by isolating task-critical parameters during training. However, these methods represent a static solution to a dynamic problem, assuming that parameter importance remains fixed once identified. In this work, we empirically demonstrate that parameter importance exhibits temporal drift over the course of training. To address this, we propose Evolving Parameter Isolation (EPI), a fine-tuning framework that adapts isolation decisions based on online estimates of parameter importance. Instead of freezing a fixed subset of parameters, EPI periodically updates isolation masks using gradient-based signals, enabling the model to protect emerging task-critical parameters while releasing outdated ones to recover plasticity. Experiments on diverse multi-task benchmarks demonstrate that EPI consistently reduces interference and forgetting compared to static isolation and standard fine-tuning, while improving overall generalization. Our analysis highlights the necessity of synchronizing isolation mechanisms with the evolving dynamics of learning diverse abilities.