Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks
作者: Rongyuan Tan, Jue Zhang, Zhuozhao Li, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
分类: cs.AI, cs.CL
发布日期: 2026-04-20
备注: 45 pages, 16 figures, 16 tables
💡 一句话要点
提出基于LRP对比归因方法,分析LLM在真实benchmark上的失效原因。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 可解释性 对比归因 LRP 失效分析
📋 核心要点
- 现有LLM可解释性分析主要集中于简单场景,缺乏对复杂benchmark上模型失效原因的深入研究。
- 论文提出基于LRP的对比归因方法,通过分析正确与错误token的logit差异,定位关键输入token和模型状态。
- 实验表明,该方法在部分失效案例中能提供有效信息,但也存在局限性,为LLM失效分析提供了新视角。
📝 摘要(中文)
可解释性工具越来越多地被用于分析大型语言模型(LLM)的失效,但先前的工作主要集中在短提示或玩具设置上,而对LLM在常用benchmark上的行为研究不足。为了弥补这一差距,我们研究了基于LRP的对比归因,将其作为分析真实场景中LLM失效的实用工具。我们将失效分析形式化为对比归因,将不正确输出token与正确替代方案之间的logit差异归因于输入token和内部模型状态,并引入了一种高效的扩展,能够为长上下文输入构建跨层归因图。利用该框架,我们对多个benchmark进行了系统的实证研究,比较了不同数据集、模型大小和训练检查点之间的归因模式。结果表明,这种token级别的对比归因可以在某些失效情况下产生信息丰富的信号,但并非普遍适用,突出了其在真实LLM失效分析中的效用和局限性。我们的代码可在https://aka.ms/Debug-XAI获取。
🔬 方法详解
问题定义:现有LLM可解释性分析方法主要集中在短文本或简单任务上,缺乏对LLM在真实benchmark上表现不佳的原因进行深入分析。现有方法难以有效处理长文本输入,并且缺乏对模型内部状态的归因分析,导致难以定位模型失效的根本原因。
核心思路:论文的核心思路是将LLM的失效分析形式化为对比归因问题。通过比较模型对正确输出和错误输出的预测概率(logit),找出导致模型做出错误决策的关键输入token和模型内部状态。这种对比分析能够更清晰地揭示模型决策过程中的偏差和错误。
技术框架:论文提出的技术框架主要包含以下几个阶段:1) 前向传播:输入文本通过LLM进行前向传播,得到模型对每个token的预测概率。2) 对比目标选择:选择一个正确的替代token作为对比目标,与模型预测的错误token进行比较。3) LRP归因:使用Layer-wise Relevance Propagation (LRP) 方法,将错误token和正确token之间的logit差异反向传播到输入token和模型内部状态。4) 归因图构建:利用高效的扩展方法,为长上下文输入构建跨层归因图,从而分析不同层之间的信息传递和依赖关系。
关键创新:论文的关键创新在于将对比学习的思想引入到LLM的可解释性分析中,提出了对比归因方法。与传统的归因方法相比,对比归因能够更有效地突出导致模型失效的关键因素。此外,论文还提出了一个高效的扩展方法,能够处理长上下文输入,并构建跨层归因图,从而更全面地分析模型行为。
关键设计:论文使用了Layer-wise Relevance Propagation (LRP) 作为主要的归因方法。LRP通过逐层反向传播,将输出层的相关性得分分配到每一层的神经元,从而揭示输入token和模型内部状态对最终预测结果的影响。为了处理长上下文输入,论文提出了一种高效的归因图构建方法,避免了对整个模型进行反向传播,从而提高了计算效率。具体的参数设置和网络结构细节取决于所使用的LLM模型。
🖼️ 关键图片
📊 实验亮点
论文通过在多个benchmark上进行实验,验证了对比归因方法在分析LLM失效原因方面的有效性。实验结果表明,该方法能够在某些失效案例中产生信息丰富的信号,例如,能够定位到导致模型产生幻觉的关键输入token。同时,实验也揭示了该方法的局限性,例如,在某些情况下,归因结果可能不够清晰或难以解释。
🎯 应用场景
该研究成果可应用于LLM的调试和优化,帮助开发者理解模型失效的原因,并针对性地改进模型结构、训练数据或推理策略。此外,该方法还可用于评估LLM的鲁棒性和安全性,发现模型存在的潜在风险。未来,该研究有望推动LLM在安全、可靠和可信赖方向发展。
📄 摘要(原文)
Interpretability tools are increasingly used to analyze failures of Large Language Models (LLMs), yet prior work largely focuses on short prompts or toy settings, leaving their behavior on commonly used benchmarks underexplored. To address this gap, we study contrastive, LRP-based attribution as a practical tool for analyzing LLM failures in realistic settings. We formulate failure analysis as \textit{contrastive attribution}, attributing the logit difference between an incorrect output token and a correct alternative to input tokens and internal model states, and introduce an efficient extension that enables construction of cross-layer attribution graphs for long-context inputs. Using this framework, we conduct a systematic empirical study across benchmarks, comparing attribution patterns across datasets, model sizes, and training checkpoints. Our results show that this token-level contrastive attribution can yield informative signals in some failure cases, but is not universally applicable, highlighting both its utility and its limitations for realistic LLM failure analysis. Our code is available at: https://aka.ms/Debug-XAI.