Alignment Dynamics in LLM Fine-Tuning

📄 arXiv: 2605.18309v1 📥 PDF

作者: Yuhan Huang, Huanran Chen, Yinpeng Dong

分类: cs.LG, cs.AI

发布日期: 2026-05-18


💡 一句话要点

提出对齐动力学框架,解释并预测LLM微调中的对齐脆弱性与恢复现象

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对齐 微调 动力学 反弹力 驱动力 后验分布 安全性

📋 核心要点

  1. 现有方法未能统一解释LLM微调中参数空间学习动态与函数空间对齐行为之间的关系,导致对对齐脆弱性的理解不足。
  2. 论文提出对齐动力学框架,将对齐更新分解为反弹力和驱动力,解释对齐逆转和重新对齐现象。
  3. 实验验证了框架预测的对齐逆转、加速重新对齐以及反弹强度对后验窄度的依赖性,证明了框架的有效性。

📝 摘要(中文)

大型语言模型(LLM)通过监督微调和人类反馈强化学习实现了强大的对齐,但这种对齐在后续微调中常常变得脆弱。现有的解释要么将对齐脆弱性归因于梯度几何,要么将其描述为模型输出中的分布偏移,但很少有人提供一个统一的解释,将参数空间学习动态与微调期间的函数空间对齐行为联系起来。本文介绍了一种易于处理的对齐分数,并推导了其在微调期间的闭式更新,从而产生了一个对齐动力学的统一框架。我们的分析将对齐更新分解为两个相互竞争的组成部分:一个 extbf{反弹力},由当前对齐状态和模型分布的窄度共同决定;一个 extbf{驱动力},由训练分布如何与对齐和非对齐完成的结果条件后验对齐决定。这种分解解释了为什么先前的对齐可以被后来的微调逆转,以及为什么更窄的后验结构会加强这种逆转。此外,我们的框架预测了一种 extbf{排练启动效应}:先前的对齐留下了一个潜在的后验印记,放大了重新暴露时的有效驱动力,从而导致更快的重新对齐。我们在安全性对齐、涌现性不对齐和情感设置中验证了这些预测,证明了一致的对齐逆转和重新暴露下加速的重新对齐。此外,在安全性对齐中的受控实验证实了预测的反弹强度对后验窄度的依赖性。总之,这些结果提供了一个统一的动态视角,了解对齐如何在LLM微调期间被破坏和重新激活。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在微调过程中对齐的脆弱性问题。现有方法要么关注梯度几何,要么关注输出分布偏移,缺乏一个统一的框架来解释参数空间学习动态如何影响函数空间的对齐行为。这导致我们难以理解和控制LLM在微调过程中的对齐状态。

核心思路:论文的核心思路是将对齐过程建模为一个动态系统,通过引入一个可计算的对齐分数,并推导出其在微调过程中的闭式更新公式,从而将参数空间的学习动态与函数空间的对齐行为联系起来。这种建模方式允许我们将对齐更新分解为两个相互作用的力:反弹力和驱动力。

技术框架:该框架主要包含以下几个关键组成部分:1) 定义一个可计算的对齐分数,用于量化模型在特定任务上的对齐程度。2) 推导对齐分数在微调过程中的闭式更新公式,该公式将对齐更新分解为反弹力和驱动力。3) 分析反弹力和驱动力的影响因素,例如当前对齐状态、模型分布的窄度以及训练数据与对齐/非对齐后验的匹配程度。4) 通过实验验证框架的预测,例如对齐逆转、加速重新对齐以及反弹强度对后验窄度的依赖性。

关键创新:论文最重要的技术创新在于提出了对齐动力学框架,该框架提供了一个统一的视角来理解LLM微调过程中的对齐行为。与现有方法不同,该框架不仅考虑了参数空间的学习动态,还考虑了函数空间的对齐行为,从而能够更全面地解释对齐的脆弱性和恢复现象。此外,将对齐更新分解为反弹力和驱动力,为理解对齐过程的内在机制提供了新的思路。

关键设计:论文的关键设计包括:1) 对齐分数的定义,需要能够准确反映模型在特定任务上的对齐程度,并且易于计算和更新。2) 闭式更新公式的推导,需要基于合理的假设和数学推导,确保公式的准确性和有效性。3) 反弹力和驱动力的分析,需要深入理解模型分布、训练数据以及对齐/非对齐后验之间的关系,从而揭示对齐过程的内在机制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架能够准确预测LLM微调过程中的对齐逆转和加速重新对齐现象。在安全性对齐实验中,观察到对齐可以被后续微调逆转,并且更窄的后验分布会加强这种逆转。此外,实验还验证了排练启动效应,即先前的对齐会加速重新暴露时的重新对齐。这些结果为理解和控制LLM的对齐行为提供了有力的证据。

🎯 应用场景

该研究成果可应用于提升大型语言模型在各种场景下的安全性与可靠性,例如,通过控制反弹力和驱动力,可以避免模型在微调过程中产生有害或不当的输出。此外,该框架还可以用于指导模型的对齐训练,使其能够更好地满足人类的价值观和偏好。未来,该研究有望推动可信人工智能的发展。

📄 摘要(原文)

Although Large Language Models (LLMs) achieve strong alignment through supervised fine-tuning and reinforcement learning from human feedback, the alignment is often fragile under subsequent fine-tuning. Existing explanations either attribute alignment fragility to gradient geometry or characterize it as a distributional shift in model outputs, yet few provide a unified account that bridges parameter-space learning dynamics with function-space alignment behavior during fine-tuning. In this work, we introduce a tractable alignment score and derive its closed-form update during fine-tuning, yielding a unified framework for alignment dynamics. Our analysis decomposes alignment updates into two competing components: a \textbf{\color{red!60!black} Rebound Force}, governed jointly by the current alignment state and the narrowness of model distribution, and a \textbf{\color{green!60!black} Driving Force}, determined by how the training distribution aligns with outcome-conditioned posteriors over aligned and non-aligned completions. This decomposition explains why prior alignment can be reversed by later fine-tuning and why narrower posterior structure strengthens such reversal. Moreover, our framework predicts a \textbf{Rehearsal Priming Effect}: prior alignment leaves a latent posterior imprint that amplifies the effective Driving Force upon re-exposure, leading to faster re-alignment. We validate these predictions across safety alignment, emergent misalignment, and sentiment settings, demonstrating consistent alignment reversal and accelerated re-alignment under re-exposure. In addition, controlled experiments in safety alignment confirm the predicted dependence of rebound strength on posterior narrowness. Together, these results provide a unified dynamical perspective on how alignment is disrupted and reactivated during LLM fine-tuning.