Explaining the Reasoning of Large Language Models Using Attribution Graphs

📄 arXiv: 2512.15663v1 📥 PDF

作者: Chase Walker, Rickard Ewetz

分类: cs.AI, cs.CL

发布日期: 2025-12-17


💡 一句话要点

提出CAGE框架,通过归因图解释大型语言模型的推理过程,提升归因忠实度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可解释性 归因方法 上下文归因 归因图 因果推理 代际影响

📋 核心要点

  1. 现有上下文归因方法忽略了LLM生成过程中的代际影响,导致解释不完整。
  2. CAGE框架构建归因图,量化prompt和先前生成对当前生成的影响,保留因果性和行随机性。
  3. 实验表明,CAGE显著提高了上下文归因的忠实度,平均提升高达40%。

📝 摘要(中文)

大型语言模型(LLMs)展现了卓越的能力,但其推理过程仍然不透明,引发了安全和信任问题。归因方法已被证明在解释计算机视觉模型的决策方面有效。其中,上下文归因已成为解释自回归LLM行为的一种有前景的方法。然而,当前的上下文归因通过直接将生成的token与prompt关联,忽略了代际间的影响,从而产生不完整的解释。为了克服这些缺点,我们引入了基于图解释的上下文归因(CAGE)框架。CAGE引入了一个归因图:一个有向图,量化了每个生成如何受到prompt和所有先前生成的影响。该图的构建保留了两个属性——因果性和行随机性。归因图允许通过边缘化图中路径上的中间贡献来计算上下文归因。在多个模型、数据集、指标和方法中,CAGE提高了上下文归因的忠实度,平均增益高达40%。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)推理过程如同黑盒,缺乏透明度,难以理解其决策依据。现有的上下文归因方法直接将生成的token归因于prompt,忽略了生成过程中token之间的相互影响,即“代际影响”,导致归因结果不完整,无法准确反映LLM的推理过程。

核心思路:CAGE的核心思路是构建一个归因图,显式地建模LLM生成过程中token之间的依赖关系。该图将prompt和所有先前生成的token都视为节点,节点之间的边表示影响关系。通过分析图中的路径,可以追踪每个生成token的归因来源,从而更全面地理解LLM的推理过程。

技术框架:CAGE框架主要包含以下几个步骤: 1. 构建归因图:基于LLM的生成过程,构建一个有向图,其中节点表示prompt和生成的token,边表示token之间的影响关系。 2. 量化影响:使用某种方法(论文中未明确说明具体方法,属于未知信息)量化每个token对后续token的影响程度,作为边的权重。 3. 计算归因:利用归因图,通过边缘化图中路径上的中间贡献,计算每个生成token对prompt和先前生成token的归因。 4. 评估归因:使用某种指标(如忠实度)评估归因结果的质量。

关键创新:CAGE的关键创新在于引入了归因图的概念,显式地建模了LLM生成过程中的代际影响。与现有方法相比,CAGE能够更全面地捕捉LLM的推理过程,从而产生更准确、更完整的归因结果。

关键设计:归因图的设计需要满足两个关键属性: 1. 因果性:图中的边必须反映token之间的因果关系,即只有先生成的token才能影响后生成的token。 2. 行随机性:从每个节点出发的所有边的权重之和必须为1,以保证归因的完整性。论文中未明确说明如何保证这两个属性,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CAGE框架在多个模型、数据集、指标和方法上都显著提高了上下文归因的忠实度,平均增益高达40%。这意味着CAGE能够更准确地解释LLM的推理过程,为LLM的应用提供了更可靠的基础。

🎯 应用场景

CAGE框架可应用于提高LLM的透明度和可信度,例如,可以帮助用户理解LLM生成文本的原因,从而更好地判断其可靠性。此外,CAGE还可以用于调试和优化LLM,例如,可以识别LLM推理过程中的瓶颈,并针对性地进行改进。该研究对提升LLM在安全、医疗、金融等领域的应用具有重要意义。

📄 摘要(原文)

Large language models (LLMs) exhibit remarkable capabilities, yet their reasoning remains opaque, raising safety and trust concerns. Attribution methods, which assign credit to input features, have proven effective for explaining the decision making of computer vision models. From these, context attributions have emerged as a promising approach for explaining the behavior of autoregressive LLMs. However, current context attributions produce incomplete explanations by directly relating generated tokens to the prompt, discarding inter-generational influence in the process. To overcome these shortcomings, we introduce the Context Attribution via Graph Explanations (CAGE) framework. CAGE introduces an attribution graph: a directed graph that quantifies how each generation is influenced by both the prompt and all prior generations. The graph is constructed to preserve two properties-causality and row stochasticity. The attribution graph allows context attributions to be computed by marginalizing intermediate contributions along paths in the graph. Across multiple models, datasets, metrics, and methods, CAGE improves context attribution faithfulness, achieving average gains of up to 40%.