Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as Pretraining Forgets Less
作者: Yuxing Liu, Jianyu Wang, Tong Zhang
分类: cs.LG, cs.AI, math.OC
发布日期: 2026-05-07
💡 一句话要点
优化器-模型一致性:全量微调使用与预训练相同的优化器能减少遗忘
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 微调 优化器 知识遗忘 优化器-模型一致性
📋 核心要点
- 现有方法在微调大型语言模型时,未能充分考虑预训练优化器对模型的影响,导致知识遗忘。
- 论文核心思想是,微调时使用与预训练相同的优化器,可以更好地保持模型在预训练阶段学到的知识,实现更好的学习-遗忘平衡。
- 实验表明,使用相同的优化器进行全量微调,在保证新任务性能的同时,能有效减少知识遗忘,优于其他优化器和LoRA。
📝 摘要(中文)
本文提出一个观察:在大型语言模型(LLM)的训练中,监督微调(SFT)阶段,使用与预训练阶段相同的优化器进行全量微调,相比于其他优化器,甚至可能令人惊讶地优于LoRA,能够实现更好的学习-遗忘权衡,即在新的任务上达到相同或更好的性能的同时,遗忘更少。我们将这种现象称为优化器-模型一致性。为了更好地理解它,通过对照实验和理论分析,我们表明:1) 优化器可以通过对激活函数产生正则化效应来塑造模型,从而导致预训练检查点周围不同的损失景观;2) 为了响应这种正则化效应,SFT中的权重更新应该遵循一些特定的结构,以减少预训练中学习到的知识的遗忘,这可以通过使用相同的优化器来实现。此外,我们专门比较了Muon和AdamW在预训练和SFT阶段的使用情况,发现Muon在推理任务上微调时表现更差。通过一个合成语言建模实验,我们证明这可能源于Muon对死记硬背的强烈倾向,这可能会损害少量数据下的模式获取,就像SFT一样。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在微调过程中出现的知识遗忘问题。现有方法,如使用不同的优化器或采用LoRA等参数高效微调方法,未能充分考虑预训练优化器对模型的影响,导致模型在学习新任务的同时,遗忘预训练阶段学到的知识。
核心思路:论文的核心思路是“优化器-模型一致性”,即认为预训练阶段使用的优化器会对模型参数空间产生特定的正则化效应,从而塑造模型的损失景观。为了减少微调过程中的知识遗忘,应该在微调阶段使用与预训练阶段相同的优化器,使权重更新遵循与预训练阶段相似的结构。
技术框架:论文主要通过实验分析和理论推导来验证“优化器-模型一致性”的有效性。实验部分,作者比较了使用不同优化器(包括预训练优化器、其他常用优化器和LoRA)进行全量微调的效果,并分析了模型在不同任务上的性能和遗忘程度。理论部分,作者尝试解释优化器对模型参数空间的影响,以及相同优化器如何减少知识遗忘。
关键创新:论文最重要的技术创新点在于提出了“优化器-模型一致性”这一概念,并从实验和理论上验证了其有效性。与现有方法相比,该方法强调了预训练优化器对模型的影响,并提出在微调阶段使用相同的优化器以减少知识遗忘。
关键设计:论文的关键设计包括:1) 对照实验的设计,通过比较不同优化器在微调过程中的性能和遗忘程度,验证“优化器-模型一致性”;2) 理论分析,尝试解释优化器对模型参数空间的影响,以及相同优化器如何减少知识遗忘;3) 特别比较了Muon和AdamW两种优化器在预训练和SFT阶段的表现,并分析了Muon在推理任务上表现不佳的原因。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用与预训练相同的优化器进行全量微调,在多个任务上都取得了更好的学习-遗忘权衡。例如,在某些推理任务上,使用AdamW进行预训练和微调的模型,性能优于使用Muon进行预训练和微调的模型。此外,实验还表明,使用相同的优化器进行微调,可以减少对预训练知识的遗忘,提高模型在原始任务上的性能。
🎯 应用场景
该研究成果可应用于各种需要对大型语言模型进行微调的场景,例如特定领域的文本生成、问答系统、对话系统等。通过使用与预训练相同的优化器进行微调,可以有效减少知识遗忘,提高模型在新任务上的性能,并保持模型在预训练阶段学到的通用知识。
📄 摘要(原文)
Optimizers play an important role in both pretraining and finetuning stages when training large language models (LLMs). In this paper, we present an observation that full finetuning with the same optimizer as in pretraining achieves a better learning-forgetting tradeoff, i.e., forgetting less while achieving the same or better performance on the new task, than other optimizers and, possibly surprisingly, LoRA, during the supervised finetuning (SFT) stage. We term this phenomenon optimizer-model consistency. To better understand it, through controlled experiments and theoretical analysis, we show that: 1) optimizers can shape the models by having regularization effects on the activations, leading to different landscapes around the pretrained checkpoints; 2) in response to this regularization effect, the weight update in SFT should follow some specific structures to lower forgetting of the knowledge learned in pretraining, which can be obtained by using the same optimizer. Moreover, we specifically compare Muon and AdamW when they are employed throughout the pretraining and SFT stages and find that Muon performs worse when finetuned for reasoning tasks. With a synthetic language modeling experiment, we demonstrate that this can come from Muon's strong tendency towards rote memorization, which may hurt pattern acquisition with a small amount of data, as for SFT.