Instruction Tuning Changes How Upstream State Conditions Late Readout: A Cross-Patching Diagnostic

📄 arXiv: 2605.07284v1 📥 PDF

作者: Yifan Zhou

分类: cs.LG

发布日期: 2026-05-08


💡 一句话要点

提出首度分歧交叉修补诊断法,揭示指令微调如何重塑模型上游状态与后期读取的交互机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型可解释性 指令微调 激活修补 大语言模型 特征工程 因果分析

📋 核心要点

  1. 现有研究多将模型行为归因于后期层的独立特征,忽略了早期计算状态与后期堆栈之间的动态交互机制。
  2. 提出首度分歧交叉修补诊断法,通过交换不同训练阶段模型的早期状态与后期层,解耦并量化上游状态对后期输出的影响。
  3. 实验证实IT模型后期堆栈对自身上游状态存在显著偏好,且最终层MLP稀疏特征在信息传递中起到了关键中介作用。

📝 摘要(中文)

近期可解释性研究已定位模型内部针对指令遵循、拒绝行为及聊天特征的特定表征,通常位于中后期层。本文探讨了早期计算与后期堆栈如何协同作用以形成下一词预测的对数几率差。为此,作者引入“首度分歧交叉修补”(first-divergence cross-patching)诊断法:在预训练(PT)与指令微调(IT)模型产生分歧的首个词处,将各自的早期层状态与后期堆栈进行交叉组合。研究发现,指令遵循类模型表现出强烈的后期效应依赖,即后期堆栈对自身早期状态的读取效率更高;而OpenMath2等特定领域微调模型则表现出更强的状态可移植性。实验覆盖5个密集模型家族(4B-32B),量化了IT后期堆栈在读取IT上游状态时相比PT上游状态带来的显著增益,并证实了最终层MLP稀疏特征在这一信息传递过程中的中介作用。

🔬 方法详解

问题定义:现有可解释性研究倾向于将模型行为(如拒绝、指令遵循)定位为后期层的“自包含”属性,但缺乏对早期计算状态如何影响后期读取机制的深入理解,导致对模型内部信息流的认知存在偏差。

核心思路:通过“首度分歧交叉修补”技术,在模型产生输出差异的临界点,强制将PT模型的早期激活状态输入到IT模型的后期堆栈中(反之亦然),从而量化上游状态与后期处理逻辑之间的耦合度。

技术框架:该方法首先识别PT与IT模型在推理路径上出现分歧的首个Token,随后在该位置截断并交换激活值,观察后期层输出Logits的变化,并结合最终层MLP的稀疏特征激活分析,追踪信息流的传递路径。

关键创新:首次量化了“上游状态-后期堆栈”的交互效应,证明了指令微调不仅改变了后期层的权重,还改变了模型读取上游信息的方式,打破了后期层行为是完全独立的假设。

关键设计:采用跨模型家族(4B-32B)的对比实验,通过计算IT后期堆栈在读取PT与IT上游状态时的Logit差值(+1.68交互项),验证了模型对自身训练历史状态的依赖性,并利用强制Token评分验证了局部选择对后续答案正确性的因果影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究覆盖了4B至32B参数规模的五个模型家族,量化发现IT后期堆栈在读取IT上游状态时,相比PT上游状态平均提升了+1.68的Logits交互增益。实验明确了最终层MLP稀疏特征作为信息传递的中介角色,并证明了若不进行交叉修补测试,仅凭后期层定位可能导致对模型行为机制的误判。

🎯 应用场景

该研究为大语言模型的可解释性分析提供了新范式,有助于开发者更精准地定位模型行为的来源。在模型调试中,该方法可用于评估微调策略的有效性,判断模型是否真正习得了领域知识,还是仅通过后期层对上游特征进行了简单的模式匹配,对提升模型鲁棒性与可控性具有重要价值。

📄 摘要(原文)

Recent interpretability work has identified model-internal handles on post-trained behavior, including refusal directions, assistant/persona axes, and sparse chat-tuning features. These results localize where behaviors can be read out or controlled, often in middle-to-late layers. We ask how earlier computation and the late stack cooperate to turn those differences into next-token margins. To test this, we introduce first-divergence cross-patching: at the first token where pretrained base (PT) and instruction-tuned (IT) checkpoints disagree, we cross each model's earlier-layer state with each model's late stack. The diagnostic separates training recipes: same-base instruction-following descendants show late effects that depend on their own earlier-layer state, while OpenMath2 math-domain SFT and controlled code/biomed CPT controls with verified domain learning do not; for OpenMath2, the late effect is already largely portable from base earlier-layer state. Across five dense families (4B-32B), the IT late stack adds +0.76 logits from PT upstream and +2.44 from IT upstream, giving a +1.68 interaction that is positive in every family. Thus the late stack has a real PT-upstream effect, but its larger effect in the IT checkpoint appears only when it reads its own post-trained upstream state. Sparse features in final MLP layers partially mediate the effect and are driven by upstream patches, supporting a handoff from earlier state to final-layer feature activation to IT-token margin. Forced-token scoring shows that the local token choice can change later exact-answer success. Operationally, paired-checkpoint studies that localize a difference to late layers should test whether it survives under the other checkpoint's upstream state before treating the late stack as self-contained.