Attention Consistency for LLMs Explanation

📄 arXiv: 2509.17178v1 📥 PDF

作者: Tian Lan, Jinyuan Xu, Xue He, Jenq-Neng Hwang, Lei Li

分类: cs.CL

发布日期: 2025-09-21


💡 一句话要点

提出MACS,通过注意力一致性提升LLM解释性并降低计算成本

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可解释性 注意力机制 一致性 计算效率

📋 核心要点

  1. 现有LLM可解释性方法存在分辨率低、计算成本高的难题,限制了其应用。
  2. MACS通过衡量多层注意力一致性来评估输入token的重要性,实现高效解释。
  3. 实验表明,MACS在保证解释质量的同时,显著降低了VRAM使用和延迟。

📝 摘要(中文)

理解大型语言模型(LLMs)的决策过程对于其可信赖的开发和部署至关重要。然而,现有的可解释性方法常常面临分辨率低和计算成本高等挑战。为了解决这些限制,我们提出了一种新颖、轻量级且易于部署的启发式方法,即多层注意力一致性分数(MACS),用于估计基于解码器的模型中输入token的重要性。MACS基于最大注意力的连贯性来衡量输入token的贡献。经验评估表明,MACS在可解释性质量和计算效率之间取得了良好的平衡,在保证与复杂技术相当的忠实度的同时,VRAM使用量减少了22%,延迟降低了30%。

🔬 方法详解

问题定义:现有的大型语言模型可解释性方法,例如基于梯度的方法或注意力机制分析,通常计算成本高昂,难以应用于大规模模型。此外,这些方法产生的解释结果分辨率可能较低,难以精确地定位关键的输入token。因此,需要一种轻量级、高效且高分辨率的可解释性方法,以促进LLM的可靠部署。

核心思路:MACS的核心思想是,如果一个输入token对于模型的最终决策至关重要,那么它在模型的多层注意力机制中应该表现出一致的关注度。换句话说,模型在不同层对该token的注意力应该相对稳定,具有较高的注意力一致性。通过衡量这种一致性,可以有效地评估每个输入token的重要性。

技术框架:MACS的整体框架包括以下步骤:1) 对于给定的输入文本,通过LLM模型进行前向传播,获取每一层的注意力权重。2) 对于每个输入token,计算其在所有层中的最大注意力值。3) 基于这些最大注意力值,计算注意力一致性分数。具体来说,MACS衡量的是不同层之间最大注意力的方差或标准差,方差越小,一致性越高,token的重要性越高。4) 将MACS分数归一化,得到每个token的最终重要性得分。

关键创新:MACS的关键创新在于其利用了多层注意力的一致性作为评估token重要性的指标。与传统的基于梯度的方法不同,MACS不需要进行反向传播,因此计算效率更高。与仅使用单层注意力的方法相比,MACS考虑了多层注意力信息,能够更准确地捕捉token的重要性。此外,MACS易于部署,可以应用于各种基于decoder的LLM模型。

关键设计:MACS的关键设计在于注意力一致性分数的计算方式。论文中可能采用了不同的统计指标来衡量注意力的一致性,例如方差、标准差或余弦相似度等。具体选择哪种指标可能需要根据实际情况进行调整。此外,MACS的性能可能受到LLM模型结构的影响,例如层数、注意力头的数量等。因此,在应用MACS时,需要根据具体的模型结构进行适当的参数调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MACS在可解释性质量上与复杂的基线方法相当,同时显著降低了计算成本。具体而言,MACS在保证相似忠实度的情况下,VRAM使用量减少了22%,延迟降低了30%。这使得MACS成为一种更具吸引力的LLM可解释性解决方案,尤其是在资源受限的环境中。

🎯 应用场景

MACS可应用于多种场景,例如LLM的调试和优化,帮助开发者理解模型行为并改进模型性能。在安全领域,MACS可用于检测恶意输入或对抗性攻击,提高LLM的鲁棒性。此外,MACS还可用于教育领域,帮助用户理解LLM的决策过程,提高用户对LLM的信任度。未来,MACS有望成为LLM可解释性研究的重要工具。

📄 摘要(原文)

Understanding the decision-making processes of large language models (LLMs) is essential for their trustworthy development and deployment. However, current interpretability methods often face challenges such as low resolution and high computational cost. To address these limitations, we propose the \textbf{Multi-Layer Attention Consistency Score (MACS)}, a novel, lightweight, and easily deployable heuristic for estimating the importance of input tokens in decoder-based models. MACS measures contributions of input tokens based on the consistency of maximal attention. Empirical evaluations demonstrate that MACS achieves a favorable trade-off between interpretability quality and computational efficiency, showing faithfulness comparable to complex techniques with a 22\% decrease in VRAM usage and 30\% reduction in latency.