Evaluating the Reliability of Self-Explanations in Large Language Models

📄 arXiv: 2407.14487v2 📥 PDF

作者: Korbinian Randl, John Pavlopoulos, Aron Henriksson, Tony Lindgren

分类: cs.CL

发布日期: 2024-07-19 (更新: 2025-01-31)

备注: Non peer-reviewed preprint. Presented at Discovery Science 2024. Peer-reviewed version published in the Springer Lecture Notes in Computer Science (vol 15243)

期刊: Lecture Notes in Computer Science(2025), vol 15243. Springer, Cham

DOI: 10.1007/978-3-031-78977-9_3


💡 一句话要点

评估大语言模型自解释的可靠性,提出反事实解释方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自解释性 反事实解释 可靠性评估 可解释性AI

📋 核心要点

  1. 现有大语言模型的自解释能力不足,其生成的解释与实际决策过程存在差距,可靠性有待验证。
  2. 论文提出利用反事实解释方法,通过构造与事实相反的假设情景,来更准确地揭示模型的决策依据。
  3. 实验表明,反事实解释方法能够生成更忠实、信息量更大且易于验证的解释,优于传统的解释性方法。

📝 摘要(中文)

本文研究了大语言模型(LLMs)在被提示解释其先前输出时,所生成的解释的可靠性。我们使用三个最先进的LLMs(2B到8B参数)在两个不同的分类任务(客观和主观)上评估了两种此类自解释——抽取式和反事实式。我们的研究结果表明,虽然这些自解释可能与人类判断相关,但它们并不完全和准确地遵循模型的决策过程,表明感知到的模型推理与实际模型推理之间存在差距。我们表明,这种差距是可以弥合的,因为提示LLMs进行反事实解释可以产生忠实、信息丰富且易于验证的结果。这些反事实解释为传统的解释性方法(例如SHAP、LIME)提供了一种有希望的替代方案,前提是提示针对特定任务进行定制并检查其有效性。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLMs)自解释可靠性不足的问题。现有方法,如抽取式解释,无法准确反映模型的真实决策过程,导致用户难以信任模型的输出。传统的解释性方法(如SHAP、LIME)计算成本高昂,且难以应用于大型语言模型。

核心思路:论文的核心思路是利用反事实解释来提高LLM自解释的可靠性。通过构造与原始输入略有不同的反事实输入,观察模型输出的变化,从而推断模型决策的关键因素。这种方法旨在揭示模型在不同输入条件下的行为模式,从而更准确地理解其决策逻辑。

技术框架:论文的技术框架主要包括以下几个步骤:1)使用LLM对输入进行分类;2)提示LLM生成抽取式解释;3)提示LLM生成反事实解释,即生成与原始输入相似但导致不同分类结果的输入;4)评估抽取式解释和反事实解释的可靠性,包括与人类判断的相关性、信息量和易于验证性。

关键创新:论文的关键创新在于提出了使用反事实解释来提高LLM自解释可靠性的方法。与传统的抽取式解释相比,反事实解释能够更准确地反映模型的决策过程,并提供更丰富的信息。此外,反事实解释易于验证,用户可以通过修改输入并观察输出变化来验证解释的合理性。

关键设计:论文的关键设计包括:1)针对特定任务定制提示,以引导LLM生成高质量的反事实解释;2)设计评估指标,以衡量反事实解释的可靠性,包括与人类判断的相关性、信息量和易于验证性;3)使用多个LLM(2B到8B参数)和两个不同的分类任务(客观和主观)进行实验,以验证方法的有效性和泛化能力。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,反事实解释方法能够生成更忠实、信息量更大且易于验证的解释。与抽取式解释相比,反事实解释与人类判断的相关性更高,能够更准确地反映模型的决策过程。此外,实验还表明,通过定制提示,可以进一步提高反事实解释的质量。

🎯 应用场景

该研究成果可应用于各种需要可信赖AI系统的场景,例如金融风控、医疗诊断和法律咨询。通过提供更可靠的自解释,可以提高用户对AI决策的信任度,并促进AI技术在关键领域的应用。未来,该方法可以扩展到其他类型的AI模型和任务中。

📄 摘要(原文)

This paper investigates the reliability of explanations generated by large language models (LLMs) when prompted to explain their previous output. We evaluate two kinds of such self-explanations - extractive and counterfactual - using three state-of-the-art LLMs (2B to 8B parameters) on two different classification tasks (objective and subjective). Our findings reveal, that, while these self-explanations can correlate with human judgement, they do not fully and accurately follow the model's decision process, indicating a gap between perceived and actual model reasoning. We show that this gap can be bridged because prompting LLMs for counterfactual explanations can produce faithful, informative, and easy-to-verify results. These counterfactuals offer a promising alternative to traditional explainability methods (e.g. SHAP, LIME), provided that prompts are tailored to specific tasks and checked for validity.