The Convergence Gap: Instruction-Tuned Language Models Stabilize Later in the Forward Pass

📄 arXiv: 2605.07282v1 📥 PDF

作者: Yifan Zhou

分类: cs.LG

发布日期: 2026-05-08


💡 一句话要点

提出收敛间隙(Convergence Gap)诊断方法,揭示指令微调模型在深层网络中更晚达成预测稳定性的规律

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型可解释性 指令微调 预测动力学 神经网络诊断 KL散度

📋 核心要点

  1. 现有研究难以量化模型在推理过程中各层对最终预测的贡献时序,导致对指令微调如何改变模型内部决策动力学的理解不足。
  2. 论文提出了“收敛间隙”诊断指标,通过对比各层输出分布与最终分布的距离,量化模型在深层网络中的预测稳定性演变。
  3. 实验证实指令微调模型在深层网络中收敛更晚,且后期 MLP 层是控制这一延迟现象的核心计算模块,为模型可解释性提供了新视角。

📝 摘要(中文)

最终输出往往掩盖了模型在预测下一个 token 时达成决策的具体时刻。本文引入了“收敛间隙”(convergence gap)这一模型差异诊断工具,通过解码每一层的下一个 token 分布,并测量其与模型最终输出分布之间的距离。研究对比了六对预训练(PT)与指令微调(IT)检查点,发现在原生提示环境下,指令微调模型在网络深层仍与最终预测保持较大距离,即表现出更晚的收敛特性。该效应在端点匹配、无端点历史检查及固定历史模板回放等多种设置下均保持稳健。通过匹配前缀干预实验,研究发现模型后期的 MLP 层是影响该收敛延迟的关键杠杆:将指令微调模型的后期 MLP 移植到预训练模型中会显著增加 KL 散度,反之则会降低。Gemma 模型的案例研究进一步验证了该行为特征的合理性,表明指令微调过程改变了模型的预测动力学,使其在深层计算中表现出更晚的决策稳定倾向。

🔬 方法详解

问题定义:现有模型分析多关注最终输出,忽略了模型在推理过程中各层如何逐步收敛至最终预测。论文旨在解决指令微调(IT)如何改变模型内部预测动力学这一黑盒问题,特别是量化 IT 模型与预训练(PT)模型在收敛时序上的差异。

核心思路:引入“收敛间隙”概念,即通过对每一层的隐藏状态进行解码,计算其预测分布与模型最终输出分布之间的 KL 散度。若某层分布与最终分布距离越近,说明该层已趋于收敛;反之则说明模型仍在进行深层计算以修正预测。

技术框架:首先在六对 PT/IT 模型上进行全层解码,计算各层收敛间隙;其次通过“匹配前缀干预”技术,将 IT 模型的特定层(如后期 MLP)移植到 PT 模型中,观察 KL 散度的变化,从而定位影响收敛时序的关键模块。

关键创新:首次量化了指令微调带来的“收敛延迟”现象,并证明了后期 MLP 层在模型决策动力学中的主导作用。通过跨模型移植实验,验证了该行为特征的因果关联性,而非仅仅是相关性。

关键设计:实验采用了严格的控制变量法,包括端点匹配、固定历史模板回放等,确保观察到的收敛间隙差异源于模型权重而非输入分布。关键指标为各层输出分布与最终分布的 KL 散度,并对比了不同层级移植后的性能波动(如 +0.34 nats 与 -0.51 nats 的显著差异)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验通过对六对 PT/IT 模型进行深度诊断,发现 IT 模型在深层表现出显著的收敛延迟。关键实验显示,将 IT 模型的后期 MLP 移植至 PT 模型可增加 0.34 nats 的 KL 散度,而反向操作则减少 0.51 nats,证明了后期 MLP 是调控模型收敛时序的核心杠杆,且该效应在多种实验设置下均具有极高的稳健性。

🎯 应用场景

该研究为大语言模型的可解释性分析提供了量化工具,有助于开发者诊断指令微调对模型内部逻辑的影响。在模型剪枝、高效推理加速及模型编辑领域,该方法可用于识别哪些层对最终决策贡献最大,从而实现更精准的压缩或微调策略,提升模型部署的效率与透明度。

📄 摘要(原文)

Final outputs hide when a checkpoint commits to its next-token prediction. We introduce the convergence gap, a model-diffing diagnostic that decodes each layer's next-token distribution and measures its distance to the model's own final distribution. Across six paired pretrained and instruction-tuned checkpoints in native prompting regimes, instruction-tuned checkpoints remain farther from their final predictions later into the stack. The effect persists under endpoint-matched raw and tuned readouts, endpoint-free same-history checks, and fixed-history template replay. Matched-prefix interventions identify late MLP windows as the largest tested leverage point: late IT grafts into PT hosts increase late KL by +0.34 nats, while PT-late swaps into IT hosts reduce it by -0.51 nats; matched random late perturbations give only +0.003 versus +0.327 for the true late graft. A preselected Gemma case study provides behavior-facing plausibility for the same late swap, without serving as a benchmark claim. These results identify a robust predictiondynamics signature of post-training: released instruction-following checkpoints tend to settle later, and late MLP computation is the strongest tested bidirectional handle on that delay under matched histories.