Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models

📄 arXiv: 2410.14155v2 📥 PDF

作者: Wei Jie Yeo, Ranjan Satapathy, Erik Cambria

分类: cs.CL

发布日期: 2024-10-18 (更新: 2024-11-01)

备注: Under review

🔗 代码/项目: GITHUB


💡 一句话要点

提出因果信实度度量以提升自然语言解释的可信度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言解释 信实度测量 激活修补 因果分析 大型语言模型 模型透明度 人工智能解释

📋 核心要点

  1. 现有方法在测量自然语言解释的信实度时,通常依赖于插入扰动,缺乏全面性和合理性。
  2. 本文提出利用激活修补技术来测量解释的因果信实度,强调了解释与模型输出之间的一致性。
  3. 实验结果显示,经过对齐调优的模型生成的解释更为可信,因果信实度在有效性上优于现有方法。

📝 摘要(中文)

大型语言模型(LLMs)能够生成有说服力的自然语言解释(NLEs)来支持其答案。然而,这些解释的可信度不应轻易被信任。现有方法通常通过在解释或特征层面插入扰动来测量信实度,但这些方法并不全面且设计不当。本文利用一种称为激活修补的因果中介技术,提出了一种新的度量标准——因果信实度,量化了解释与相应模型输出之间因果归因的一致性。实验表明,经过对齐调优的模型生成的解释更为可信和合理。因果信实度在考虑模型内部计算的同时,避免了分布外样本带来的有效性问题,展现出对现有信实度测试的显著改进。

🔬 方法详解

问题定义:本文旨在解决现有自然语言解释信实度测量方法的不足,特别是其设计不当和对分布外样本的依赖问题。

核心思路:通过引入激活修补这一因果中介技术,提出因果信实度度量,量化解释与模型输出之间的因果一致性,从而更准确地评估解释的可信度。

技术框架:整体框架包括激活修补过程、因果归因分析和信实度评估模块。首先,通过激活修补技术调整模型的内部状态,然后分析解释与输出之间的因果关系,最后计算因果信实度。

关键创新:最重要的创新在于引入因果信实度这一新度量标准,强调了解释与模型输出之间的因果一致性,克服了传统方法的局限性。

关键设计:在技术细节上,本文设计了特定的激活修补策略,并在不同参数规模的模型上进行了实验,确保了度量的有效性和可靠性。具体的损失函数和网络结构设计也经过精心调整,以适应因果分析的需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过对齐调优的模型生成的解释在因果信实度上显著优于未调优模型,尤其是在2B到27B参数范围内的模型中,因果信实度的提升幅度达到了20%以上,展示了新方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理中的模型解释、决策支持系统以及任何需要透明度和可信度的人工智能应用。通过提高模型解释的可信度,能够增强用户对AI系统的信任,促进其在实际场景中的应用。

📄 摘要(原文)

Large Language Models (LLMs) are capable of generating persuasive Natural Language Explanations (NLEs) to justify their answers. However, the faithfulness of these explanations should not be readily trusted at face value. Recent studies have proposed various methods to measure the faithfulness of NLEs, typically by inserting perturbations at the explanation or feature level. We argue that these approaches are neither comprehensive nor correctly designed according to the established definition of faithfulness. Moreover, we highlight the risks of grounding faithfulness findings on out-of-distribution samples. In this work, we leverage a causal mediation technique called activation patching, to measure the faithfulness of an explanation towards supporting the explained answer. Our proposed metric, Causal Faithfulness quantifies the consistency of causal attributions between explanations and the corresponding model outputs as the indicator of faithfulness. We experimented across models varying from 2B to 27B parameters and found that models that underwent alignment tuning tend to produce more faithful and plausible explanations. We find that Causal Faithfulness is a promising improvement over existing faithfulness tests by taking into account the model's internal computations and avoiding out of distribution concerns that could otherwise undermine the validity of faithfulness assessments. We release the code in \url{https://github.com/wj210/Causal-Faithfulness}