Differentiable Faithfulness Alignment for Cross-Model Circuit Transfer

📄 arXiv: 2604.24302v1 📥 PDF

作者: Shun Shao, Binxu Wang, Shay B. Cohen, Anna Korhonen, Yonatan Belinkov

分类: cs.CL

发布日期: 2026-04-27

备注: 10 pages, 5 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出可微忠实度对齐(DFA)框架,用于跨模型传递神经回路信息。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经回路可解释性 跨模型迁移 可微对齐 忠实度 语言模型 机制理解 模型安全性

📋 核心要点

  1. 现有神经回路可解释性方法成本高昂,模型特定,难以扩展到大型架构,限制了其应用。
  2. DFA通过学习可微对齐,将小模型节点重要性传递到大模型,避免在大模型上进行昂贵的神经回路发现。
  3. 实验表明,DFA在Llama-3上表现良好,但在更大模型差距和Qwen-2.5上效果下降,揭示了迁移的挑战。

📝 摘要(中文)

本文提出了一种名为可微忠实度对齐(DFA)的框架,旨在将神经回路信息从较小的源模型迁移到较大的目标模型。现有的神经回路可解释性方法成本高昂、模型特定且难以扩展到更大的架构。DFA通过学习到的可微对齐,将源模型节点的重要性得分投影到目标模型中,并使用软忠实度目标训练该映射,从而避免在目标模型上进行完整的神经回路发现。我们在Llama-3和Qwen-2.5上,针对六项任务(包括事实检索、多项选择推理和算术)评估了DFA。在Llama-3 1B→3B上的结果最好,对齐的神经回路通常与直接节点归因具有竞争力,并且零样本迁移仍然有效。对于更大的源-目标差距,恢复效果减弱,并且在Qwen-2.5上的效果明显降低,这表明随着架构和规模差异的增加,迁移变得更加困难。总的来说,DFA始终优于简单的基线,并且在某些设置中,恢复的目标模型神经回路的忠实度与直接归因相当或更高。这些结果表明,较小的模型可以为较大的模型提供有用的机制先验,同时突出了节点级跨模型神经回路对齐的希望和局限性。

🔬 方法详解

问题定义:现有神经回路可解释性方法,如节点归因,计算成本高昂,且通常是模型特定的,难以直接应用于大型模型。这限制了我们理解和控制大型语言模型内部机制的能力。因此,需要一种方法能够将从小型模型中获得的神经回路知识迁移到大型模型,从而降低计算成本并提高可解释性研究的效率。

核心思路:DFA的核心思路是学习一个可微的映射,将源模型中节点的重要性得分投影到目标模型中。通过优化一个软忠实度目标,使得投影后的重要性得分能够尽可能地保留源模型中神经回路的功能。这种方法避免了在目标模型上进行完整的神经回路发现,从而降低了计算成本。

技术框架:DFA框架包含以下主要模块:1) 源模型节点重要性计算:使用某种归因方法(如梯度积分)计算源模型中每个节点的重要性得分。2) 可微对齐模块:学习一个可微的映射函数,将源模型节点的重要性得分投影到目标模型中。这个映射函数可以是线性变换、神经网络等。3) 忠实度损失函数:定义一个损失函数,衡量投影后的重要性得分与目标模型实际行为之间的忠实度。这个损失函数可以是KL散度、余弦相似度等。4) 优化器:使用优化器(如Adam)训练可微对齐模块,使其能够尽可能地保留源模型中神经回路的功能。

关键创新:DFA的关键创新在于引入了可微对齐模块,使得神经回路信息的迁移过程可以进行端到端的优化。与传统的零样本迁移方法相比,DFA能够更好地适应目标模型的特性,从而提高迁移的准确性和效率。此外,DFA还提出了一种软忠实度目标,避免了对目标模型进行硬性的约束,从而提高了模型的灵活性和泛化能力。

关键设计:DFA的关键设计包括:1) 可微对齐模块的结构:可以选择线性变换或神经网络等不同的结构,以适应不同的模型架构和任务。2) 忠实度损失函数的选择:可以选择KL散度、余弦相似度等不同的损失函数,以衡量投影后的重要性得分与目标模型实际行为之间的忠实度。3) 优化器的选择:可以选择Adam等不同的优化器,以训练可微对齐模块。4) 超参数的设置:需要调整学习率、批量大小等超参数,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Llama-3 1B→3B上的实验结果表明,DFA对齐的神经回路通常与直接节点归因具有竞争力,并且零样本迁移仍然有效。这表明DFA能够有效地将神经回路信息从小型模型迁移到大型模型。然而,对于更大的源-目标差距和Qwen-2.5,恢复效果减弱,这表明迁移的难度随着架构和规模差异的增加而增加。DFA始终优于简单的基线,并且在某些设置中,恢复的目标模型神经回路的忠实度与直接归因相当或更高。

🎯 应用场景

DFA可应用于大型语言模型的安全性和可控性研究。通过将小型模型中已知的安全神经回路迁移到大型模型,可以提高大型模型的安全性。此外,DFA还可以用于模型编辑,通过修改大型模型中与特定行为相关的神经回路,可以实现对模型行为的精确控制。该研究还有助于理解不同模型架构之间的神经回路对应关系,为模型设计提供指导。

📄 摘要(原文)

Mechanistic interpretability has made it possible to localize circuits underlying specific behaviors in language models, but existing methods are expensive, model-specific, and difficult to scale to larger architectures. We introduce \textbf{Differentiable Faithfulness Alignment (DFA)}, a framework that transfers circuit information from a smaller source model to a larger target model through a learned differentiable alignment. DFA projects source-model node importance scores into the target model and trains this mapping with a soft faithfulness objective, avoiding full circuit discovery on the target model. We evaluate DFA on Llama-3 and Qwen-2.5 across six tasks spanning factual retrieval, multiple-choice reasoning, and arithmetic. The strongest results occur on Llama-3 $1$B$\rightarrow3$B, where aligned circuits are often competitive with direct node attribution and zero-shot transfer remains effective. Recovery weakens for larger source--target gaps and is substantially lower on Qwen-2.5, suggesting that transfer becomes harder as architectural and scaling differences increase. Overall, DFA consistently outperforms simple baselines and, in some settings, recovers target-model circuits with faithfulness comparable to or stronger than direct attribution. These results suggest that smaller models can provide useful mechanistic priors for larger ones, while highlighting both the promise and the limits of node-level cross-model circuit alignment.\footnote{Code is available at https://github.com/jasonshaoshun/dfa-circuits.