Dual Path Attribution: Efficient Attribution for SwiGLU-Transformers through Layer-Wise Target Propagation
作者: Lasse Marten Jantsch, Dong-Jae Koh, Seonghyeon Lee, Young-Kyoon Suh
分类: cs.LG, cs.CL
发布日期: 2026-03-20
💡 一句话要点
提出双路径归因(DPA),高效实现SwiGLU-Transformer的层级目标传播归因
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可解释性 Transformer 归因方法 双路径传播 SwiGLU 目标传播 大型语言模型
📋 核心要点
- 现有Transformer模型归因方法在忠实性和计算效率之间难以平衡,对模型内部组件的密集归因计算成本高昂。
- DPA通过前向和后向双路径传播,解析并线性化SwiGLU Transformer的计算结构,实现高效的目标中心归因。
- 实验表明,DPA在标准可解释性基准上实现了最先进的忠实性,并具有前所未有的效率,优于现有方法。
📝 摘要(中文)
理解基于Transformer的大型语言模型(LLM)的内部机制对于其可靠部署和有效运行至关重要。虽然最近的研究已经产生了大量的归因方法,试图平衡忠实性和计算效率,但密集的组件归因仍然非常昂贵。本文介绍了一种新的框架——双路径归因(DPA),它可以在一个前向和一个后向过程中忠实地追踪冻结Transformer中的信息流,而不需要反事实的例子。DPA将SwiGLU Transformer的计算结构解析并线性化为不同的路径,沿着这些路径传播目标解嵌入向量,以接收每个残差位置的有效表示。这种以目标为中心的传播实现了O(1)的时间复杂度,相对于模型组件的数量,可以扩展到长输入序列和密集的组件归因。在标准可解释性基准上的大量实验表明,与现有的基线相比,DPA实现了最先进的忠实性和前所未有的效率。
🔬 方法详解
问题定义:现有Transformer模型的可解释性方法,尤其是在进行密集组件归因时,计算成本非常高昂,难以扩展到长序列和大型模型。如何在保证归因结果忠实性的前提下,降低计算复杂度,是本文要解决的核心问题。现有方法通常需要在前向传播的基础上进行多次计算,例如需要构建反事实样本,导致计算量显著增加。
核心思路:DPA的核心思路是将Transformer的计算过程分解为不同的信息流动路径,并利用目标传播的思想,从输出端反向传播目标信息,结合前向传播的信息,从而实现高效的归因。通过这种双路径的方式,DPA避免了构建反事实样本的需求,从而显著降低了计算复杂度。
技术框架:DPA的技术框架主要包含两个阶段:前向传播阶段和后向传播阶段。在前向传播阶段,模型正常进行推理,并记录中间层的激活值。在后向传播阶段,从输出端的目标向量开始,沿着分解后的路径反向传播,计算每个组件对目标向量的贡献。最终,将前向传播和后向传播的结果结合起来,得到每个组件的归因值。
关键创新:DPA最重要的技术创新在于其双路径传播机制和对SwiGLU Transformer计算结构的解析。通过将Transformer的计算分解为不同的路径,DPA能够精确地追踪信息流,并实现高效的归因。与现有方法相比,DPA不需要构建反事实样本,从而显著降低了计算复杂度。此外,DPA针对SwiGLU激活函数进行了专门的优化,使其能够更好地适应SwiGLU Transformer的结构。
关键设计:DPA的关键设计包括:1) 如何将SwiGLU Transformer的计算分解为不同的路径;2) 如何选择合适的目标向量进行反向传播;3) 如何将前向传播和后向传播的结果结合起来,得到最终的归因值。目标向量通常选择与预测类别相关的向量,例如one-hot向量。前向和后向传播结果的结合方式通常采用线性组合或其他简单的函数。
🖼️ 关键图片
📊 实验亮点
DPA在标准可解释性基准上实现了最先进的忠实性和前所未有的效率。实验结果表明,DPA在保证忠实性的前提下,计算速度比现有方法快几个数量级。例如,在长序列输入上,DPA的计算时间几乎与序列长度无关,而其他方法的计算时间则随着序列长度的增加而显著增加。具体的性能数据和对比基线信息在论文中有详细展示。
🎯 应用场景
DPA可应用于提升大型语言模型的可解释性和可靠性,例如诊断模型偏差、调试模型错误、增强模型透明度。在安全攸关的应用中,如医疗诊断、金融风控等,理解模型的决策依据至关重要。DPA能够帮助开发者和用户更好地理解模型的行为,从而提高模型的信任度和可用性。未来,DPA可以进一步扩展到其他类型的Transformer模型和任务中。
📄 摘要(原文)
Understanding the internal mechanisms of transformer-based large language models (LLMs) is crucial for their reliable deployment and effective operation. While recent efforts have yielded a plethora of attribution methods attempting to balance faithfulness and computational efficiency, dense component attribution remains prohibitively expensive. In this work, we introduce Dual Path Attribution (DPA), a novel framework that faithfully traces information flow on the frozen transformer in one forward and one backward pass without requiring counterfactual examples. DPA analytically decomposes and linearizes the computational structure of the SwiGLU Transformers into distinct pathways along which it propagates a targeted unembedding vector to receive the effective representation at each residual position. This target-centric propagation achieves O(1) time complexity with respect to the number of model components, scaling to long input sequences and dense component attribution. Extensive experiments on standard interpretability benchmarks demonstrate that DPA achieves state-of-the-art faithfulness and unprecedented efficiency compared to existing baselines.