The Convergence Gap: Instruction-Tuned Language Models Stabilize Later in the Forward Pass

作者: Yifan Zhou

分类: cs.LG

发布日期: 2026-05-08

💡 一句话要点

提出收敛间隙（Convergence Gap）诊断方法，揭示指令微调模型在深层网络中更晚达成预测稳定性的规律

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型可解释性 指令微调 预测动力学 神经网络诊断 KL散度

📋 核心要点

现有研究难以量化模型在推理过程中各层对最终预测的贡献时序，导致对指令微调如何改变模型内部决策动力学的理解不足。
论文提出了“收敛间隙”诊断指标，通过对比各层输出分布与最终分布的距离，量化模型在深层网络中的预测稳定性演变。
实验证实指令微调模型在深层网络中收敛更晚，且后期 MLP 层是控制这一延迟现象的核心计算模块，为模型可解释性提供了新视角。

📝 摘要（中文）

最终输出往往掩盖了模型在预测下一个 token 时达成决策的具体时刻。本文引入了“收敛间隙”（convergence gap）这一模型差异诊断工具，通过解码每一层的下一个 token 分布，并测量其与模型最终输出分布之间的距离。研究对比了六对预训练（PT）与指令微调（IT）检查点，发现在原生提示环境下，指令微调模型在网络深层仍与最终预测保持较大距离，即表现出更晚的收敛特性。该效应在端点匹配、无端点历史检查及固定历史模板回放等多种设置下均保持稳健。通过匹配前缀干预实验，研究发现模型后期的 MLP 层是影响该收敛延迟的关键杠杆：将指令微调模型的后期 MLP 移植到预训练模型中会显著增加 KL 散度，反之则会降低。Gemma 模型的案例研究进一步验证了该行为特征的合理性，表明指令微调过程改变了模型的预测动力学，使其在深层计算中表现出更晚的决策稳定倾向。

🔬 方法详解

问题定义：现有模型分析多关注最终输出，忽略了模型在推理过程中各层如何逐步收敛至最终预测。论文旨在解决指令微调（IT）如何改变模型内部预测动力学这一黑盒问题，特别是量化 IT 模型与预训练（PT）模型在收敛时序上的差异。

核心思路：引入“收敛间隙”概念，即通过对每一层的隐藏状态进行解码，计算其预测分布与模型最终输出分布之间的 KL 散度。若某层分布与最终分布距离越近，说明该层已趋于收敛；反之则说明模型仍在进行深层计算以修正预测。

技术框架：首先在六对 PT/IT 模型上进行全层解码，计算各层收敛间隙；其次通过“匹配前缀干预”技术，将 IT 模型的特定层（如后期 MLP）移植到 PT 模型中，观察 KL 散度的变化，从而定位影响收敛时序的关键模块。

关键创新：首次量化了指令微调带来的“收敛延迟”现象，并证明了后期 MLP 层在模型决策动力学中的主导作用。通过跨模型移植实验，验证了该行为特征的因果关联性，而非仅仅是相关性。

关键设计：实验采用了严格的控制变量法，包括端点匹配、固定历史模板回放等，确保观察到的收敛间隙差异源于模型权重而非输入分布。关键指标为各层输出分布与最终分布的 KL 散度，并对比了不同层级移植后的性能波动（如 +0.34 nats 与 -0.51 nats 的显著差异）。

🖼️ 关键图片

📊 实验亮点

实验通过对六对 PT/IT 模型进行深度诊断，发现 IT 模型在深层表现出显著的收敛延迟。关键实验显示，将 IT 模型的后期 MLP 移植至 PT 模型可增加 0.34 nats 的 KL 散度，而反向操作则减少 0.51 nats，证明了后期 MLP 是调控模型收敛时序的核心杠杆，且该效应在多种实验设置下均具有极高的稳健性。

🎯 应用场景

该研究为大语言模型的可解释性分析提供了量化工具，有助于开发者诊断指令微调对模型内部逻辑的影响。在模型剪枝、高效推理加速及模型编辑领域，该方法可用于识别哪些层对最终决策贡献最大，从而实现更精准的压缩或微调策略，提升模型部署的效率与透明度。

📄 摘要（原文）

Final outputs hide when a checkpoint commits to its next-token prediction. We introduce the convergence gap, a model-diffing diagnostic that decodes each layer's next-token distribution and measures its distance to the model's own final distribution. Across six paired pretrained and instruction-tuned checkpoints in native prompting regimes, instruction-tuned checkpoints remain farther from their final predictions later into the stack. The effect persists under endpoint-matched raw and tuned readouts, endpoint-free same-history checks, and fixed-history template replay. Matched-prefix interventions identify late MLP windows as the largest tested leverage point: late IT grafts into PT hosts increase late KL by +0.34 nats, while PT-late swaps into IT hosts reduce it by -0.51 nats; matched random late perturbations give only +0.003 versus +0.327 for the true late graft. A preselected Gemma case study provides behavior-facing plausibility for the same late swap, without serving as a benchmark claim. These results identify a robust predictiondynamics signature of post-training: released instruction-following checkpoints tend to settle later, and late MLP computation is the strongest tested bidirectional handle on that delay under matched histories.

The Convergence Gap: Instruction-Tuned Language Models Stabilize Later in the Forward Pass

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理