Walk the Talk? Measuring the Faithfulness of Large Language Model Explanations
作者: Katie Matton, Robert Osazuwa Ness, John Guttag, Emre Kıcıman
分类: cs.CL, cs.AI, cs.LG, stat.ML
发布日期: 2025-04-19 (更新: 2025-05-20)
备注: 66 pages, 14 figures, 40 tables; ICLR 2025 (spotlight) camera ready
💡 一句话要点
提出一种评估大型语言模型解释忠实度的新方法,揭示模型解释与实际推理的偏差。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可解释性 忠实度 反事实推理 因果推断 贝叶斯模型 社会偏见
📋 核心要点
- 现有LLM解释可能不忠实于模型的实际推理过程,导致用户过度信任和误用。
- 利用辅助LLM生成反事实样本,并通过贝叶斯分层模型量化概念的因果效应,从而评估解释的忠实度。
- 实验表明该方法能够量化不忠实性,并揭示LLM解释中隐藏的社会偏见和误导性证据。
- 通过反事实生成和因果推断,量化LLM解释与模型实际行为之间的偏差。
📝 摘要(中文)
大型语言模型(LLM)能够生成看似合理的答案解释,但这些解释可能无法真实反映模型的“推理”过程,即缺乏忠实性,从而导致过度信任和误用。本文提出了一种新的方法来衡量LLM解释的忠实度。首先,论文给出了忠实度的严格定义。由于LLM解释模仿人类解释,它们通常引用输入问题中据称影响模型的高级概念。忠实度被定义为LLM解释所暗示的影响概念集合与实际影响概念集合之间的差异。其次,论文提出了一种新颖的估计忠实度的方法,该方法基于:(1) 使用辅助LLM修改模型输入中概念的值,以创建逼真的反事实样本;(2) 使用贝叶斯分层模型量化概念在样本和数据集层面的因果效应。实验表明,该方法可用于量化和发现不忠实的可解释模式。在社会偏见任务中,揭示了LLM解释隐藏社会偏见影响的情况。在医学问答任务中,揭示了LLM解释提供关于哪些证据影响模型决策的误导性声明的情况。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)解释的忠实度问题。现有的LLM能够生成看似合理的解释,但这些解释可能并不反映模型做出决策的真实原因。这种不忠实性会导致用户对模型的过度信任,从而可能导致误用和不良后果。现有的方法缺乏有效量化和诊断这种不忠实性的手段。
核心思路:论文的核心思路是通过比较LLM解释所暗示的影响因素与实际影响模型决策的因素来衡量解释的忠实度。为了确定实际的影响因素,论文采用反事实推理的方法,即通过修改输入中的关键概念并观察模型输出的变化来推断这些概念的因果效应。
技术框架:该方法包含两个主要阶段:1) 反事实生成:使用辅助LLM修改原始输入中的概念,生成一系列逼真的反事实样本。这些反事实样本旨在改变特定概念的值,同时保持其他因素不变。2) 因果效应量化:使用贝叶斯分层模型分析原始输入和反事实样本的模型输出,从而量化每个概念对模型决策的因果效应。该模型能够同时估计样本层面和数据集层面的因果效应。
关键创新:该方法的关键创新在于结合了反事实生成和因果推断来评估LLM解释的忠实度。与传统的解释方法相比,该方法不依赖于模型内部的表示或梯度信息,而是通过观察模型对外部扰动的反应来推断因果关系。此外,使用贝叶斯分层模型能够更准确地估计因果效应,并考虑不同样本之间的差异。
关键设计:在反事实生成阶段,论文使用另一个LLM(不同于被评估的LLM)来修改输入中的概念。这有助于生成更逼真和语义一致的反事实样本。在因果效应量化阶段,贝叶斯分层模型使用 weakly informative priors 来正则化参数估计,并使用 Markov Chain Monte Carlo (MCMC) 方法进行推断。具体来说,模型假设概念的因果效应服从正态分布,并使用分层结构来建模样本和数据集层面的变异性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够有效地量化LLM解释的不忠实性,并揭示隐藏的偏见和误导性信息。在社会偏见任务中,该方法发现LLM解释倾向于隐藏社会偏见的影响。在医学问答任务中,该方法发现LLM解释会提供关于哪些证据影响模型决策的误导性声明。这些发现表明,LLM解释可能并不总是可靠的,需要谨慎对待。
🎯 应用场景
该研究成果可应用于多个领域,包括:1) 评估和改进LLM在医疗、金融等高风险领域的应用,确保模型解释的可靠性;2) 提升LLM在教育领域的应用,帮助学生理解模型的推理过程;3) 促进LLM的透明度和可信度,增强用户对模型的信任。未来,该方法可以扩展到评估其他类型AI模型的解释,并用于开发更忠实的解释方法。
📄 摘要(原文)
Large language models (LLMs) are capable of generating plausible explanations of how they arrived at an answer to a question. However, these explanations can misrepresent the model's "reasoning" process, i.e., they can be unfaithful. This, in turn, can lead to over-trust and misuse. We introduce a new approach for measuring the faithfulness of LLM explanations. First, we provide a rigorous definition of faithfulness. Since LLM explanations mimic human explanations, they often reference high-level concepts in the input question that purportedly influenced the model. We define faithfulness in terms of the difference between the set of concepts that LLM explanations imply are influential and the set that truly are. Second, we present a novel method for estimating faithfulness that is based on: (1) using an auxiliary LLM to modify the values of concepts within model inputs to create realistic counterfactuals, and (2) using a Bayesian hierarchical model to quantify the causal effects of concepts at both the example- and dataset-level. Our experiments show that our method can be used to quantify and discover interpretable patterns of unfaithfulness. On a social bias task, we uncover cases where LLM explanations hide the influence of social bias. On a medical question answering task, we uncover cases where LLM explanations provide misleading claims about which pieces of evidence influenced the model's decisions.