Evaluating the Reliability of Self-Explanations in Large Language Models

作者: Korbinian Randl, John Pavlopoulos, Aron Henriksson, Tony Lindgren

分类: cs.CL

发布日期: 2024-07-19 (更新: 2025-01-31)

备注: Non peer-reviewed preprint. Presented at Discovery Science 2024. Peer-reviewed version published in the Springer Lecture Notes in Computer Science (vol 15243)

期刊: Lecture Notes in Computer Science(2025), vol 15243. Springer, Cham

DOI: 10.1007/978-3-031-78977-9_3

💡 一句话要点

评估大语言模型自解释的可靠性，提出反事实解释方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自解释性 反事实解释 可靠性评估 可解释性AI

📋 核心要点

现有大语言模型的自解释能力不足，其生成的解释与实际决策过程存在差距，可靠性有待验证。
论文提出利用反事实解释方法，通过构造与事实相反的假设情景，来更准确地揭示模型的决策依据。
实验表明，反事实解释方法能够生成更忠实、信息量更大且易于验证的解释，优于传统的解释性方法。

📝 摘要（中文）

本文研究了大语言模型（LLMs）在被提示解释其先前输出时，所生成的解释的可靠性。我们使用三个最先进的LLMs（2B到8B参数）在两个不同的分类任务（客观和主观）上评估了两种此类自解释——抽取式和反事实式。我们的研究结果表明，虽然这些自解释可能与人类判断相关，但它们并不完全和准确地遵循模型的决策过程，表明感知到的模型推理与实际模型推理之间存在差距。我们表明，这种差距是可以弥合的，因为提示LLMs进行反事实解释可以产生忠实、信息丰富且易于验证的结果。这些反事实解释为传统的解释性方法（例如SHAP、LIME）提供了一种有希望的替代方案，前提是提示针对特定任务进行定制并检查其有效性。

🔬 方法详解

问题定义：论文旨在解决大语言模型（LLMs）自解释可靠性不足的问题。现有方法，如抽取式解释，无法准确反映模型的真实决策过程，导致用户难以信任模型的输出。传统的解释性方法（如SHAP、LIME）计算成本高昂，且难以应用于大型语言模型。

核心思路：论文的核心思路是利用反事实解释来提高LLM自解释的可靠性。通过构造与原始输入略有不同的反事实输入，观察模型输出的变化，从而推断模型决策的关键因素。这种方法旨在揭示模型在不同输入条件下的行为模式，从而更准确地理解其决策逻辑。

技术框架：论文的技术框架主要包括以下几个步骤：1）使用LLM对输入进行分类；2）提示LLM生成抽取式解释；3）提示LLM生成反事实解释，即生成与原始输入相似但导致不同分类结果的输入；4）评估抽取式解释和反事实解释的可靠性，包括与人类判断的相关性、信息量和易于验证性。

关键创新：论文的关键创新在于提出了使用反事实解释来提高LLM自解释可靠性的方法。与传统的抽取式解释相比，反事实解释能够更准确地反映模型的决策过程，并提供更丰富的信息。此外，反事实解释易于验证，用户可以通过修改输入并观察输出变化来验证解释的合理性。

关键设计：论文的关键设计包括：1）针对特定任务定制提示，以引导LLM生成高质量的反事实解释；2）设计评估指标，以衡量反事实解释的可靠性，包括与人类判断的相关性、信息量和易于验证性；3）使用多个LLM（2B到8B参数）和两个不同的分类任务（客观和主观）进行实验，以验证方法的有效性和泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，反事实解释方法能够生成更忠实、信息量更大且易于验证的解释。与抽取式解释相比，反事实解释与人类判断的相关性更高，能够更准确地反映模型的决策过程。此外，实验还表明，通过定制提示，可以进一步提高反事实解释的质量。

🎯 应用场景

该研究成果可应用于各种需要可信赖AI系统的场景，例如金融风控、医疗诊断和法律咨询。通过提供更可靠的自解释，可以提高用户对AI决策的信任度，并促进AI技术在关键领域的应用。未来，该方法可以扩展到其他类型的AI模型和任务中。

📄 摘要（原文）

This paper investigates the reliability of explanations generated by large language models (LLMs) when prompted to explain their previous output. We evaluate two kinds of such self-explanations - extractive and counterfactual - using three state-of-the-art LLMs (2B to 8B parameters) on two different classification tasks (objective and subjective). Our findings reveal, that, while these self-explanations can correlate with human judgement, they do not fully and accurately follow the model's decision process, indicating a gap between perceived and actual model reasoning. We show that this gap can be bridged because prompting LLMs for counterfactual explanations can produce faithful, informative, and easy-to-verify results. These counterfactuals offer a promising alternative to traditional explainability methods (e.g. SHAP, LIME), provided that prompts are tailored to specific tasks and checked for validity.

Evaluating the Reliability of Self-Explanations in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理