Weight Patching: Toward Source-Level Mechanistic Localization in LLMs

📄 arXiv: 2604.13694v1 📥 PDF

作者: Chenghao Sun, Chengsheng Zhang, Guanzheng Qin, Rui Dai, Xinmei Tian

分类: cs.AI

发布日期: 2026-04-15

备注: 36 pages. Submitted to IEEE for possible publication


💡 一句话要点

提出权重修补方法,用于定位LLM中源级别的机制性行为。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机制可解释性 权重修补 参数空间干预 指令跟随 模型合并

📋 核心要点

  1. 现有激活空间定位方法难以区分真正编码能力的模块和仅聚合信号的模块。
  2. 提出权重修补方法,通过参数空间干预,将专业模型权重迁移到基础模型以定位关键模块。
  3. 实验表明该方法能有效定位指令跟随任务中的关键模块,并指导模型合并。

📝 摘要(中文)

机制可解释性旨在将模型行为定位到因果实现它的内部组件。先前的工作主要集中在激活空间定位和因果追踪,但激活空间中看似重要的模块可能仅仅是聚合或放大上游信号,而不是在其自身参数中编码目标能力。为了解决这个差距,本文提出了权重修补,这是一种参数空间干预方法,用于在具有相同架构但目标能力表达强度不同的配对模型中进行面向源的分析。给定一个基础模型和一个行为专业化模型,权重修补将来自专业化模型的选定模块权重替换到固定输入下的基础模型中。本文在指令跟随任务上实例化该方法,并引入一个以向量锚点行为接口为中心的框架,该接口为开放式生成中是否已形成或恢复任务相关的控制状态提供了一个共享的内部标准。分析揭示了从浅层候选源端载体到聚合和路由模块,再到下游执行电路的层次结构。恢复的组件分数还可以指导机制感知的模型合并,从而改善跨评估专家组合的选择性融合,并提供额外的外部验证。

🔬 方法详解

问题定义:现有机制可解释性方法,如激活空间定位和因果追踪,主要关注模型内部激活值的变化,难以区分哪些模块真正编码了目标能力,哪些模块只是简单地聚合或放大了上游信号。这导致对模型行为的理解不够深入,无法精确定位到负责特定功能的参数。

核心思路:本文的核心思路是通过参数空间的干预,直接操作模型的权重,观察模型行为的变化,从而定位到负责特定功能的模块。具体来说,就是将一个在特定任务上表现良好的“专业化模型”的权重,选择性地替换到“基础模型”中,观察基础模型在该任务上的表现是否得到提升。如果替换某个模块的权重后,基础模型的表现显著提升,则说明该模块对该任务至关重要。

技术框架:该方法主要包含以下几个步骤:1) 准备一个基础模型和一个在特定任务上表现良好的专业化模型;2) 选择要进行权重替换的模块;3) 将专业化模型中选定模块的权重复制到基础模型中;4) 在特定输入下,评估基础模型在目标任务上的表现;5) 根据基础模型表现的变化,评估被替换模块的重要性。此外,论文还引入了一个向量锚点行为接口,用于评估开放式生成任务中是否形成了任务相关的控制状态。

关键创新:该方法最重要的创新在于从激活空间干预转向参数空间干预。与激活空间干预不同,参数空间干预直接操作模型的权重,可以更直接地定位到负责特定功能的参数。这使得我们可以更深入地理解模型的内部机制,并更好地控制模型的行为。

关键设计:论文的关键设计包括:1) 选择合适的模块进行权重替换。论文采用了一种层次化的方法,从浅层到深层逐步进行分析;2) 使用向量锚点行为接口来评估开放式生成任务中控制状态的形成;3) 利用恢复的组件分数指导模型合并,验证了该方法的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够有效地定位指令跟随任务中的关键模块,并揭示了从浅层候选源端载体到聚合和路由模块,再到下游执行电路的层次结构。此外,利用该方法恢复的组件分数指导模型合并,改善了跨评估专家组合的选择性融合,并提供了额外的外部验证。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可解释性,帮助研究人员理解模型内部的工作机制。此外,该方法还可以用于指导模型编辑和模型合并,例如,可以选择性地融合不同模型的优势,从而构建性能更优的模型。该方法在安全对齐方面也有潜在应用,可以用于识别和修复模型中存在的有害行为。

📄 摘要(原文)

Mechanistic interpretability seeks to localize model behavior to the internal components that causally realize it. Prior work has advanced activation-space localization and causal tracing, but modules that appear important in activation space may merely aggregate or amplify upstream signals rather than encode the target capability in their own parameters. To address this gap, we propose Weight Patching, a parameter-space intervention method for source-oriented analysis in paired same-architecture models that differ in how strongly they express a target capability under the inputs of interest. Given a base model and a behavior-specialized counterpart, Weight Patching replaces selected module weights from the specialized model into the base model under a fixed input. We instantiate the method on instruction following and introduce a framework centered on a vector-anchor behavioral interface that provides a shared internal criterion for whether a task-relevant control state has been formed or recovered in open-ended generation. Under this framework, the analysis reveals a hierarchy from shallow candidate source-side carriers to aggregation and routing modules, and further to downstream execution circuits. The recovered component scores can also guide mechanism-aware model merging, improving selective fusion across the evaluated expert combinations and providing additional external validation.