Stabilizing LLM Supervised Fine-Tuning via Explicit Distributional Control

作者: Xinyu Wang, Changzhi Sun, Yuanbin Wu, Xiaoling Wang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-06

💡 一句话要点

提出Anchored Learning，通过显式分布控制稳定LLM监督微调

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 监督微调 灾难性遗忘 分布控制 锚点学习

📋 核心要点

现有LLM微调方法易发生灾难性遗忘，导致模型在目标任务提升的同时，原有能力显著下降。
Anchored Learning通过引入动态锚点，将全局微调转化为一系列局部信任域更新，显式控制分布漂移。
实验表明，Anchored Learning在iGSM等数据集上，显著降低性能下降，同时保持接近最优的性能增益。

📝 摘要（中文）

大型语言模型（LLM）的后训练经常遭受灾难性遗忘，即在目标任务上的改进会降低先前获得的能力。最近的证据表明，这种现象主要由优化过程中过度的分布漂移驱动。受此观点的启发，我们提出了Anchored Learning，这是一个简单的框架，通过动态演进的移动锚点显式控制离线微调期间的分布更新。锚点不是匹配固定的参考分布，而是在当前模型和冻结的参考之间进行插值，以构建模型提炼到的中间目标，从而将全局微调转换为分布空间中的一系列局部信任域更新。从理论上讲，我们证明了这种基于锚点的更新允许每次迭代的线性KL散度上限，确保模型分布之间的稳定过渡。在iGSM、MedCalc和IFEval上的大量实验表明，Anchored Learning始终位于增益-稳定性权衡的帕累托前沿，与强大的基线相比，在实现接近最佳的性能改进的同时，显着降低了性能下降。例如，虽然标准SFT在iGSM和MedCalc上遭受超过53%的性能下降，但Anchored Learning将这种下降降低到5%以下，同时保持接近最佳的增益（例如，在iGSM上为75.2%）。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在监督微调（SFT）过程中出现的灾难性遗忘问题。现有SFT方法在提升目标任务性能的同时，往往会显著降低模型在其他任务上的表现，即“遗忘”了先前学习到的知识。这种现象主要是由于微调过程中模型分布发生了过大的漂移，导致模型偏离了原始的知识空间。

核心思路：论文的核心思路是通过显式地控制模型在微调过程中的分布更新，从而限制分布漂移的幅度，避免灾难性遗忘。具体而言，论文提出了一种名为Anchored Learning的方法，该方法引入了一个动态演进的“锚点”，作为模型更新的目标。

技术框架：Anchored Learning的技术框架主要包含以下几个步骤：1. 初始化：使用预训练的LLM作为初始模型。2. 锚点更新：在每次迭代中，锚点通过插值当前模型和冻结的参考模型（通常是预训练模型）来动态更新。3. 模型蒸馏：模型通过最小化与锚点之间的差异来进行更新，从而实现分布控制。4. 迭代：重复步骤2和3，直到模型收敛。

关键创新：Anchored Learning的关键创新在于引入了动态锚点，将全局微调转化为一系列局部信任域更新。与传统的SFT方法直接以目标任务数据作为优化目标不同，Anchored Learning通过锚点来约束模型的更新方向和幅度，从而避免了过度的分布漂移。此外，锚点的动态更新使得模型能够在保持原有知识的同时，逐步适应目标任务。

关键设计：Anchored Learning的关键设计包括：1. 锚点更新策略：锚点通常通过线性插值当前模型和参考模型来更新，插值系数控制了锚点对当前模型的依赖程度。2. 损失函数：模型通过最小化与锚点之间的KL散度或其他距离度量来进行更新。3. 信任域大小：可以通过调整锚点更新策略中的插值系数来控制信任域的大小，从而影响模型的更新幅度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Anchored Learning在iGSM、MedCalc和IFEval等数据集上取得了显著的性能提升，同时大幅降低了灾难性遗忘的程度。例如，在iGSM和MedCalc上，标准SFT的性能下降超过53%，而Anchored Learning将这一降幅降低到5%以下，同时保持了接近最优的性能增益（例如，在iGSM上为75.2%）。这些结果表明，Anchored Learning在增益-稳定性权衡方面具有显著优势。

🎯 应用场景

Anchored Learning可应用于各种需要对LLM进行微调的场景，尤其适用于那些对模型原有能力有较高要求的任务，例如医疗诊断、金融分析等。该方法可以有效提升模型在特定任务上的性能，同时避免灾难性遗忘，保证模型的通用性和可靠性。未来，该方法可以进一步扩展到多任务学习、持续学习等领域。

📄 摘要（原文）

Post-training large language models (LLMs) often suffers from catastrophic forgetting, where improvements on a target objective degrade previously acquired capabilities. Recent evidence suggests that this phenomenon is primarily driven by excessive distributional drift during optimization. Motivated by this perspective, we propose Anchored Learning, a simple framework that explicitly controls distributional updates during offline fine-tuning via a dynamically evolving moving anchor. Instead of matching a fixed reference distribution, the anchor interpolates between the current model and a frozen reference to construct an intermediate target that the model distills toward, transforming global fine-tuning into a sequence of local trust-region updates in distribution space. Theoretically, we prove this anchor-based update admits a linear KL-divergence upper bound per iteration, ensuring a stable transition between model distributions. Extensive experiments on iGSM, MedCalc, and IFEval show that Anchored Learning consistently lies on the Pareto frontier of gain-stability trade-offs, achieving near-optimal performance improvements while substantially reducing degradation compared to strong baselines. For example, while standard SFT suffers from over 53% performance degradation on iGSM and MedCalc, Anchored Learning slashes this drop to under 5% while maintaining near-optimal gains (e.g., 75.2% on iGSM).

Stabilizing LLM Supervised Fine-Tuning via Explicit Distributional Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理