Stabilizing LLM Supervised Fine-Tuning via Explicit Distributional Control
作者: Xinyu Wang, Changzhi Sun, Yuanbin Wu, Xiaoling Wang
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-05-06
💡 一句话要点
提出Anchored Learning,通过显式分布控制稳定LLM监督微调
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 监督微调 灾难性遗忘 分布控制 锚点学习
📋 核心要点
- 现有LLM微调方法易发生灾难性遗忘,导致模型在目标任务提升的同时,原有能力显著下降。
- Anchored Learning通过引入动态锚点,将全局微调转化为一系列局部信任域更新,显式控制分布漂移。
- 实验表明,Anchored Learning在iGSM等数据集上,显著降低性能下降,同时保持接近最优的性能增益。
📝 摘要(中文)
大型语言模型(LLM)的后训练经常遭受灾难性遗忘,即在目标任务上的改进会降低先前获得的能力。最近的证据表明,这种现象主要由优化过程中过度的分布漂移驱动。受此观点的启发,我们提出了Anchored Learning,这是一个简单的框架,通过动态演进的移动锚点显式控制离线微调期间的分布更新。锚点不是匹配固定的参考分布,而是在当前模型和冻结的参考之间进行插值,以构建模型提炼到的中间目标,从而将全局微调转换为分布空间中的一系列局部信任域更新。从理论上讲,我们证明了这种基于锚点的更新允许每次迭代的线性KL散度上限,确保模型分布之间的稳定过渡。在iGSM、MedCalc和IFEval上的大量实验表明,Anchored Learning始终位于增益-稳定性权衡的帕累托前沿,与强大的基线相比,在实现接近最佳的性能改进的同时,显着降低了性能下降。例如,虽然标准SFT在iGSM和MedCalc上遭受超过53%的性能下降,但Anchored Learning将这种下降降低到5%以下,同时保持接近最佳的增益(例如,在iGSM上为75.2%)。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在监督微调(SFT)过程中出现的灾难性遗忘问题。现有SFT方法在提升目标任务性能的同时,往往会显著降低模型在其他任务上的表现,即“遗忘”了先前学习到的知识。这种现象主要是由于微调过程中模型分布发生了过大的漂移,导致模型偏离了原始的知识空间。
核心思路:论文的核心思路是通过显式地控制模型在微调过程中的分布更新,从而限制分布漂移的幅度,避免灾难性遗忘。具体而言,论文提出了一种名为Anchored Learning的方法,该方法引入了一个动态演进的“锚点”,作为模型更新的目标。
技术框架:Anchored Learning的技术框架主要包含以下几个步骤:1. 初始化:使用预训练的LLM作为初始模型。2. 锚点更新:在每次迭代中,锚点通过插值当前模型和冻结的参考模型(通常是预训练模型)来动态更新。3. 模型蒸馏:模型通过最小化与锚点之间的差异来进行更新,从而实现分布控制。4. 迭代:重复步骤2和3,直到模型收敛。
关键创新:Anchored Learning的关键创新在于引入了动态锚点,将全局微调转化为一系列局部信任域更新。与传统的SFT方法直接以目标任务数据作为优化目标不同,Anchored Learning通过锚点来约束模型的更新方向和幅度,从而避免了过度的分布漂移。此外,锚点的动态更新使得模型能够在保持原有知识的同时,逐步适应目标任务。
关键设计:Anchored Learning的关键设计包括:1. 锚点更新策略:锚点通常通过线性插值当前模型和参考模型来更新,插值系数控制了锚点对当前模型的依赖程度。2. 损失函数:模型通过最小化与锚点之间的KL散度或其他距离度量来进行更新。3. 信任域大小:可以通过调整锚点更新策略中的插值系数来控制信任域的大小,从而影响模型的更新幅度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Anchored Learning在iGSM、MedCalc和IFEval等数据集上取得了显著的性能提升,同时大幅降低了灾难性遗忘的程度。例如,在iGSM和MedCalc上,标准SFT的性能下降超过53%,而Anchored Learning将这一降幅降低到5%以下,同时保持了接近最优的性能增益(例如,在iGSM上为75.2%)。这些结果表明,Anchored Learning在增益-稳定性权衡方面具有显著优势。
🎯 应用场景
Anchored Learning可应用于各种需要对LLM进行微调的场景,尤其适用于那些对模型原有能力有较高要求的任务,例如医疗诊断、金融分析等。该方法可以有效提升模型在特定任务上的性能,同时避免灾难性遗忘,保证模型的通用性和可靠性。未来,该方法可以进一步扩展到多任务学习、持续学习等领域。
📄 摘要(原文)
Post-training large language models (LLMs) often suffers from catastrophic forgetting, where improvements on a target objective degrade previously acquired capabilities. Recent evidence suggests that this phenomenon is primarily driven by excessive distributional drift during optimization. Motivated by this perspective, we propose Anchored Learning, a simple framework that explicitly controls distributional updates during offline fine-tuning via a dynamically evolving moving anchor. Instead of matching a fixed reference distribution, the anchor interpolates between the current model and a frozen reference to construct an intermediate target that the model distills toward, transforming global fine-tuning into a sequence of local trust-region updates in distribution space. Theoretically, we prove this anchor-based update admits a linear KL-divergence upper bound per iteration, ensuring a stable transition between model distributions. Extensive experiments on iGSM, MedCalc, and IFEval show that Anchored Learning consistently lies on the Pareto frontier of gain-stability trade-offs, achieving near-optimal performance improvements while substantially reducing degradation compared to strong baselines. For example, while standard SFT suffers from over 53% performance degradation on iGSM and MedCalc, Anchored Learning slashes this drop to under 5% while maintaining near-optimal gains (e.g., 75.2% on iGSM).