The Effectiveness of Approximate Regularized Replay for Efficient Supervised Fine-Tuning of Large Language Models

📄 arXiv: 2512.22337v1 📥 PDF

作者: Matthew Riemer, Erik Miehling, Miao Liu, Djallel Bouneffouf, Murray Campbell

分类: cs.LG, cs.AI

发布日期: 2025-12-26


💡 一句话要点

提出近似正则化回放方法,解决LoRA微调大语言模型时的能力退化问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 参数高效微调 LoRA 灾难性遗忘 正则化 数据回放 指令调优 知识保留

📋 核心要点

  1. LoRA等参数高效微调方法在指令调优时可能导致大语言模型能力退化,即使在小数据集上训练也会发生。
  2. 论文提出一种正则化的近似回放方法,通过约束KL散度和混合预训练数据,来缓解能力退化问题。
  3. 实验表明,该方法在Qwen模型上能有效保留通用知识,同时保持对新任务的适应性,且计算开销适中。

📝 摘要(中文)

尽管诸如LoRA等参数高效微调方法仅修改一小部分参数,但它们可能对模型产生重大影响。我们的指令调优实验表明,基于LoRA的监督式微调可能会灾难性地降低模型的能力,即使在非常小的数据集上训练相对较少的步骤也是如此。尽管如此,我们证明了最直接的方法(可能是在实践中最常用的方法)会惨败,但对训练过程进行小的调整,且几乎没有开销,就可以几乎消除这个问题。特别地,在本文中,我们考虑了一种正则化的近似回放方法,该方法惩罚相对于初始模型的KL散度,并交错来自不同但相似的开放访问语料库的数据以进行下一个token预测,该语料库与预训练中使用的语料库类似。当应用于Qwen指令调优模型时,我们发现这种方法在模型中保留了一般知识,而不会通过增加适量的计算开销来阻碍对新任务的可塑性。

🔬 方法详解

问题定义:现有参数高效微调方法,如LoRA,在指令调优大语言模型时,容易出现灾难性遗忘问题,导致模型在微调后丧失原有的通用知识和能力。即使使用少量数据进行微调,也可能发生这种情况。现有方法缺乏有效的机制来保持模型在预训练阶段学到的知识。

核心思路:论文的核心思路是通过正则化和数据回放来缓解灾难性遗忘。具体来说,通过KL散度正则化,约束微调后的模型参数不要偏离原始预训练模型太远,从而保留原始知识。同时,通过混合预训练数据,让模型在微调过程中持续接触原始数据分布,避免过度拟合微调数据。

技术框架:该方法主要包含两个关键部分:一是KL散度正则化,二是数据回放。KL散度正则化是在微调的损失函数中加入一项,惩罚微调后模型与原始模型的KL散度。数据回放是指在微调过程中,将一部分预训练数据与微调数据混合在一起,用于训练模型。整体流程是:首先,使用LoRA等参数高效微调方法对模型进行微调;然后,在微调过程中,计算模型与原始模型的KL散度,并将其加入到损失函数中;同时,将一部分预训练数据与微调数据混合在一起,用于训练模型。

关键创新:该方法的主要创新在于将KL散度正则化和数据回放结合起来,用于缓解参数高效微调中的灾难性遗忘问题。与传统的正则化方法相比,KL散度正则化能够更直接地约束模型参数,使其保持原始知识。与简单的数据回放相比,该方法能够更有效地利用预训练数据,避免过度拟合微调数据。

关键设计:关键设计包括:1) KL散度正则化的系数,用于控制正则化的强度;2) 数据回放的比例,用于控制预训练数据在微调数据中的占比;3) 用于数据回放的预训练数据集的选择,需要选择与微调任务相关性较低,但能够覆盖通用知识的数据集。此外,LoRA的秩(rank)也是一个重要的超参数,需要根据具体任务进行调整。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该方法在Qwen模型上能够显著缓解LoRA微调带来的能力退化问题。具体来说,在指令调优后,使用该方法训练的模型在通用知识评估指标上表现更好,同时保持了在新任务上的良好性能。实验证明,该方法在增加少量计算开销的情况下,能够有效提升参数高效微调的稳定性和可靠性。

🎯 应用场景

该研究成果可应用于各种需要对大语言模型进行高效微调的场景,例如,针对特定领域的知识增强、个性化对话系统定制、以及快速适应新任务等。通过缓解灾难性遗忘,该方法能够提升微调后模型的泛化能力和实用性,降低模型维护和更新的成本。

📄 摘要(原文)

Although parameter-efficient fine-tuning methods, such as LoRA, only modify a small subset of parameters, they can have a significant impact on the model. Our instruction-tuning experiments show that LoRA-based supervised fine-tuning can catastrophically degrade model capabilities, even when trained on very small datasets for relatively few steps. With that said, we demonstrate that while the most straightforward approach (that is likely the most used in practice) fails spectacularly, small tweaks to the training procedure with very little overhead can virtually eliminate the problem. Particularly, in this paper we consider a regularized approximate replay approach which penalizes KL divergence with respect to the initial model and interleaves in data for next token prediction from a different, yet similar, open access corpus to what was used in pre-training. When applied to Qwen instruction-tuned models, we find that this recipe preserves general knowledge in the model without hindering plasticity to new tasks by adding a modest amount of computational overhead.