Can LLMs Explain Themselves Counterfactually?

📄 arXiv: 2502.18156v2 📥 PDF

作者: Zahra Dehghanighobadi, Asja Fischer, Muhammad Bilal Zafar

分类: cs.CL, cs.AI

发布日期: 2025-02-25 (更新: 2025-09-23)


💡 一句话要点

研究表明大型语言模型在生成反事实解释方面存在局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 反事实解释 自我解释 可解释性 推理能力

📋 核心要点

  1. 现有的模型解释方法通常依赖于梯度计算或优化问题,计算成本高且解释性有限。
  2. 本文探索利用LLM的推理能力,通过提示模型生成反事实解释,实现自我解释。
  3. 实验表明,LLM在生成反事实解释时存在困难,且预测结果与反事实推理不一致。

📝 摘要(中文)

解释是深入了解机器学习模型行为、校准用户信任和确保合规性的重要工具。近年来,涌现出大量用于生成模型解释的后验方法,其中许多方法涉及计算模型梯度或解决专门设计的优化问题。然而,由于大型语言模型(LLM)卓越的推理能力,自我解释,即提示模型解释其输出,最近已成为一种新的范式。本文研究了一种特定类型的自我解释,即自我生成的反事实解释(SCE)。我们设计了测试来衡量LLM在生成SCE方面的有效性。对各种LLM系列、模型大小、温度设置和数据集的分析表明,LLM有时难以生成SCE。即使它们生成了SCE,它们的预测通常也与其自身的反事实推理不一致。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)生成反事实解释(SCE)的能力。现有模型解释方法(如基于梯度的方法)计算成本高昂,且难以捕捉复杂的推理过程。因此,如何利用LLM的强大推理能力,使其能够自我解释,是一个重要的研究问题。

核心思路:论文的核心思路是,通过设计特定的提示(prompts),引导LLM生成其自身预测的反事实解释。具体来说,就是询问模型:“如果输入发生改变,模型的预测会如何变化?”,从而考察模型是否能够进行有效的反事实推理,并给出合理的解释。

技术框架:论文没有提出新的模型架构,而是侧重于设计评估LLM生成SCE能力的测试。主要流程包括:1)选择合适的LLM模型和数据集;2)设计特定的提示模板,引导LLM生成SCE;3)评估生成的SCE的质量,包括其是否与模型的预测一致,以及是否具有合理的解释性。

关键创新:论文的关键创新在于,它将反事实解释的概念引入到LLM的自我解释领域,并设计了一套评估LLM生成SCE能力的测试方法。这为评估LLM的推理能力和可解释性提供了一种新的视角。与传统的模型解释方法相比,这种方法更加简洁高效,并且能够直接利用LLM的内在知识。

关键设计:论文的关键设计在于提示模板的设计。不同的提示模板可能会影响LLM生成SCE的质量。此外,论文还考虑了不同的模型大小、温度设置等因素对SCE生成的影响。论文通过实验分析了这些因素对SCE生成的影响,并提出了相应的建议。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是大型LLM,在生成反事实解释时也存在困难。模型的预测结果与其自身生成的反事实解释经常不一致。例如,模型可能预测A会导致结果B,但同时生成的反事实解释却表明,如果A不发生,结果仍然是B。这表明LLM的反事实推理能力仍然有待提高。

🎯 应用场景

该研究成果可应用于提升LLM的可解释性和可靠性,例如在医疗诊断、金融风控等高风险领域,帮助用户理解模型的决策过程,从而建立信任。此外,该研究还可以促进LLM的持续改进,使其能够更好地进行推理和解释。

📄 摘要(原文)

Explanations are an important tool for gaining insights into the behavior of ML models, calibrating user trust and ensuring regulatory compliance. Past few years have seen a flurry of post-hoc methods for generating model explanations, many of which involve computing model gradients or solving specially designed optimization problems. However, owing to the remarkable reasoning abilities of Large Language Model (LLMs), self-explanation, that is, prompting the model to explain its outputs has recently emerged as a new paradigm. In this work, we study a specific type of self-explanations, self-generated counterfactual explanations (SCEs). We design tests for measuring the efficacy of LLMs in generating SCEs. Analysis over various LLM families, model sizes, temperature settings, and datasets reveals that LLMs sometimes struggle to generate SCEs. Even when they do, their prediction often does not agree with their own counterfactual reasoning.