Overcoming Forgetting in LLM Fine-Tuning with Evolution Strategies
作者: Kajetan Schweighofer, Conor F. Hayes, Roberto Dailey, Risto Miikkulainen, Xin Qiu
分类: cs.LG, cs.AI
发布日期: 2026-05-28
💡 一句话要点
提出AWD正则化方法,解决ES微调LLM中的遗忘问题,提升持续学习能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 进化策略 大型语言模型 持续学习 灾难性遗忘 参数空间正则化 锚定权重衰减 微调 性能漂移
📋 核心要点
- 现有LLM微调方法,如进化策略(ES)和强化学习(RL),在学习新任务时可能导致对先前任务的遗忘,影响模型性能。
- 论文提出锚定权重衰减(AWD)正则化方法,通过约束优化过程向初始模型参数靠拢,稳定先前任务性能。
- 实验表明,AWD能有效避免ES微调中的遗忘问题,在保持目标任务性能的同时,提升了先前任务的性能,且计算成本较低。
📝 摘要(中文)
进化策略(ES)作为一种简单、可扩展且仅需推理的LLM微调方法,近年来已成为强化学习(RL)的有力竞争者。然而,ES在新任务上的微调可能导致对先前任务的遗忘。本文首先表明,先前任务的遗忘(1)最好被描述为性能漂移,而非不可逆的遗忘,因为先前任务的性能通常在ES训练期间恢复;(2)并非ES特有的失败模式,RL微调也会出现。其次,分析了性能漂移发生的时间和原因,强调了其对ES训练动态的依赖性,特别是权重空间中弱约束方向上的随机游走行为。基于此,本文提出了一种参数空间正则化技术——锚定权重衰减(AWD),它约束优化过程向初始模型参数靠拢。AWD有效地稳定了先前任务的性能,同时保留了目标任务的性能,以更低的计算成本实现了与大型ES种群规模相当的收益。因此,与之前的观点相反,本文表明ES下的先前任务遗忘在很大程度上是可以避免的,这使得ES成为LLM持续学习的一种有前景的方法。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在使用进化策略(ES)进行微调时出现的灾难性遗忘问题。具体来说,当LLM在新的任务上进行微调时,它可能会忘记之前学习过的任务,导致在先前任务上的性能显著下降。现有的微调方法,包括强化学习,也存在类似的问题,并且缺乏有效的解决方案来缓解这种遗忘现象。
核心思路:论文的核心思路是通过参数空间正则化来约束模型的更新,使其在学习新任务的同时,尽可能地保留之前学习到的知识。具体而言,论文提出了锚定权重衰减(Anchored Weight Decay, AWD)方法,该方法通过在损失函数中添加一个正则化项,惩罚模型参数偏离初始值的程度。这样做的目的是引导模型在优化过程中,保持与初始模型的相似性,从而避免过度拟合新任务,并保留先前任务的知识。
技术框架:AWD方法可以集成到现有的ES微调框架中。整体流程如下:首先,使用预训练的LLM作为初始模型。然后,使用ES算法在目标任务上进行微调,同时在损失函数中加入AWD正则化项。ES算法通过评估模型在目标任务上的性能来更新模型参数,而AWD正则化项则约束参数的更新方向,使其尽可能地靠近初始模型参数。最终,得到一个在目标任务上表现良好,同时又不会忘记先前任务的微调模型。
关键创新:AWD的关键创新在于它提供了一种简单而有效的参数空间正则化方法,可以缓解ES微调中的灾难性遗忘问题。与传统的正则化方法不同,AWD不是直接约束模型参数的范数,而是约束模型参数与初始参数的距离。这种方法更符合持续学习的需求,因为它允许模型在学习新知识的同时,保留先前学习到的知识。
关键设计:AWD的关键设计在于正则化系数的选择。正则化系数控制了模型参数与初始参数的接近程度。如果正则化系数过大,模型可能无法学习到新的知识;如果正则化系数过小,模型可能会忘记先前学习到的知识。因此,需要仔细调整正则化系数,以在学习新知识和保留旧知识之间取得平衡。论文中可能提供了关于如何选择正则化系数的实验结果或建议。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AWD能够有效地缓解ES微调中的灾难性遗忘问题。与没有使用AWD的ES微调相比,使用AWD的ES微调在保持目标任务性能的同时,显著提高了先前任务的性能。此外,AWD能够以较低的计算成本实现与大型ES种群规模相当的收益,使其成为一种高效且实用的持续学习方法。
🎯 应用场景
该研究成果可应用于各种需要持续学习的LLM应用场景,例如对话系统、机器翻译和文本生成。通过缓解灾难性遗忘,AWD能够使LLM在不断学习新任务的同时,保持在先前任务上的性能,从而提高LLM的整体性能和泛化能力。这对于构建能够适应不断变化的环境和用户需求的智能系统至关重要。
📄 摘要(原文)
Evolution Strategies (ES) has recently emerged as a competitive alternative to reinforcement learning (RL) for large language model (LLM) fine-tuning, offering advantages through simplicity, scalability, and inference-only training. However, recent work suggests that ES fine-tuning on new tasks may induce forgetting of prior tasks. First, this paper shows that prior task forgetting (1) is better characterized as performance drift rather than irreversible forgetting, with prior-task performance often recovering during ES training; and (2) is not a specific failure mode of ES, but can also arise for fine-tuning with RL methods. Second, it analyzes when and why such drift arises, highlighting its dependence on ES training dynamics, particularly random walk behavior in weakly constrained directions of the weight space. Third, based on these insights, it introduces Anchored Weight Decay (AWD) as a parameter-space regularization technique that constrains optimization toward the initial model parameters. AWD effectively stabilizes prior-task performance while preserving target-task performance, achieving benefits comparable to large ES population sizes at much lower computational cost. Thus, contrary to previous beliefs, the paper shows that prior-task forgetting under ES is largely avoidable, positioning ES as a promising approach for continual learning in LLMs.