Local Explanations and Self-Explanations for Assessing Faithfulness in black-box LLMs

📄 arXiv: 2409.13764v1 📥 PDF

作者: Christos Fragkathoulas, Odysseas S. Chlapanis

分类: cs.CL, cs.AI

发布日期: 2024-09-18

DOI: 10.1145/3688671.3688775


💡 一句话要点

提出基于局部扰动和自解释的LLM忠实性评估方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可解释性 忠实性评估 局部扰动 自解释

📋 核心要点

  1. 现有LLM在回答问题时依赖上下文,但缺乏有效方法来评估其答案的忠实性。
  2. 论文提出一种基于局部扰动的新型可解释性技术,通过识别关键输入部分来解释模型决策。
  3. 实验表明,该方法能有效解释模型决策,并能评估LLM在Natural Questions数据集上的忠实性。

📝 摘要(中文)

本文提出了一种新颖的任务,旨在使用局部扰动和自解释来评估大型语言模型(LLM)的忠实性。许多LLM通常需要额外的上下文才能正确回答某些问题。为此,我们提出了一种新的高效可解释性技术,其灵感来源于常用的留一法(leave-one-out)方法。通过这种方法,我们识别出LLM生成正确答案所必需和充分的部分,并将这些部分作为解释。我们提出了一种评估忠实性的指标,该指标将这些关键部分与模型的自解释进行比较。我们使用Natural Questions数据集验证了我们的方法,证明了其在解释模型决策和评估忠实性方面的有效性。

🔬 方法详解

问题定义:现有大型语言模型(LLM)在回答问题时,往往需要依赖上下文信息。然而,如何评估LLM给出的答案是否忠实于输入,即答案是否真正基于输入信息而非模型自身的偏见或幻觉,是一个重要的挑战。现有的可解释性方法可能效率较低或不够准确,难以有效识别LLM做出决策的关键因素。

核心思路:本文的核心思路是借鉴留一法(leave-one-out)的思想,通过对输入进行局部扰动,观察LLM输出的变化,从而识别出对生成正确答案至关重要的输入部分。这些关键部分被认为是模型决策的“解释”。然后,将这些通过扰动得到的“解释”与模型自身的“自解释”进行比较,以此来评估模型的忠实性。

技术框架:该方法主要包含以下几个阶段:1) 输入扰动:对输入文本进行局部扰动,例如移除或替换某些词语或短语。2) 答案生成:将扰动后的输入输入LLM,生成相应的答案。3) 关键部分识别:通过比较扰动前后答案的变化,识别出对生成正确答案至关重要的输入部分。这些部分被认为是模型决策的“解释”。4) 自解释提取:从LLM中提取其自身的解释,例如通过注意力机制或梯度信息。5) 忠实性评估:将通过扰动得到的“解释”与模型的“自解释”进行比较,计算相似度或一致性,以此来评估模型的忠实性。

关键创新:该方法的关键创新在于提出了一种基于局部扰动的高效可解释性技术,能够有效地识别LLM生成正确答案的关键输入部分。与传统的留一法相比,该方法可能更加高效,因为它只需要对部分输入进行扰动,而不需要遍历所有可能的组合。此外,通过比较扰动得到的“解释”与模型的“自解释”,能够更全面地评估模型的忠实性。

关键设计:论文中关键的设计包括:1) 如何选择合适的扰动策略,例如移除哪些词语或短语。2) 如何定义答案的变化,例如使用BLEU score或ROUGE score等指标。3) 如何从LLM中提取其自身的解释,例如使用注意力权重或梯度信息。4) 如何定义“解释”之间的相似度或一致性,例如使用余弦相似度或Jaccard系数。

🖼️ 关键图片

fig_0

📊 实验亮点

该论文在Natural Questions数据集上验证了所提出的方法,结果表明该方法能够有效地解释模型决策,并评估LLM的忠实性。具体的性能数据和对比基线(如果论文中提供)未知,但摘要中强调了该方法在解释模型决策和评估忠实性方面的有效性。

🎯 应用场景

该研究成果可应用于评估和提高大型语言模型在各种任务中的可靠性和可信度,例如问答系统、文本摘要和机器翻译。通过识别模型决策的关键因素,可以帮助用户更好地理解模型的行为,并发现潜在的偏见或错误。此外,该方法还可以用于指导模型的训练,使其更加忠实于输入数据。

📄 摘要(原文)

This paper introduces a novel task to assess the faithfulness of large language models (LLMs) using local perturbations and self-explanations. Many LLMs often require additional context to answer certain questions correctly. For this purpose, we propose a new efficient alternative explainability technique, inspired by the commonly used leave-one-out approach. Using this approach, we identify the sufficient and necessary parts for the LLM to generate correct answers, serving as explanations. We propose a metric for assessing faithfulness that compares these crucial parts with the self-explanations of the model. Using the Natural Questions dataset, we validate our approach, demonstrating its effectiveness in explaining model decisions and assessing faithfulness.