Self-Critique and Refinement for Faithful Natural Language Explanations
作者: Yingming Wang, Pepa Atanasova
分类: cs.CL
发布日期: 2025-05-28 (更新: 2025-09-06)
备注: EMNLP 2025 Main
💡 一句话要点
提出SR-NLE框架,通过自批判与改进提升LLM自然语言解释的忠实性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自然语言解释 大型语言模型 可解释性AI 自批判 特征归因
📋 核心要点
- 现有自然语言解释(NLEs)常无法忠实反映大型语言模型(LLMs)的实际推理过程,降低了解释的可信度。
- SR-NLE框架通过迭代的自批判和改进,利用自然语言反馈和特征归因反馈,提升LLM生成解释的忠实性。
- 实验表明,SR-NLE显著降低了解释的不忠实率,最高可降低18.79%,无需额外训练或微调。
📝 摘要(中文)
随着大型语言模型(LLMs)的快速发展,自然语言解释(NLEs)对于理解模型预测变得越来越重要。然而,这些解释通常不能忠实地反映模型实际的推理过程。虽然现有工作表明LLMs可以自批判和改进其初始输出以完成各种任务,但这种能力在提高解释忠实性方面仍未被探索。为了弥补这一差距,我们引入了自然语言解释的自批判与改进(SR-NLE)框架,该框架使模型能够通过迭代的批判和改进过程来提高自身解释的忠实性——特别是事后NLEs——而无需外部监督。我们的框架利用不同的反馈机制来指导改进过程,包括自然语言自我反馈,以及一种基于特征归因的新颖反馈方法,该方法突出显示重要的输入词。在三个数据集和四个最先进的LLM上的实验表明,SR-NLE显著降低了不忠实率,我们最好的方法实现了平均36.02%的不忠实率,而基线为54.81%——绝对降低了18.79%。这些发现表明,所研究的LLM确实可以改进其解释,以更好地反映其真实的推理过程,只需要通过反馈进行适当的指导,而无需额外的训练或微调。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)生成的自然语言解释(NLEs)不忠实于模型实际推理过程的问题。现有的NLE方法往往无法准确反映模型内部的决策逻辑,导致用户难以信任和理解模型的预测结果。这种不忠实性限制了NLE在可解释性AI领域的应用。
核心思路:论文的核心思路是让LLM通过自我批判和迭代改进来提升NLE的忠实性。类似于人类的自我反思过程,模型首先生成一个初始解释,然后对其进行批判性评估,并根据评估结果进行改进。这种迭代过程旨在逐步消除解释中的不忠实之处,使其更准确地反映模型的真实推理过程。
技术框架:SR-NLE框架包含以下主要阶段:1) 初始解释生成:使用LLM生成对模型预测的初始自然语言解释。2) 自我批判:LLM对生成的解释进行自我评估,识别其中可能存在的不忠实之处。评估可以基于自然语言反馈或特征归因反馈。3) 解释改进:根据自我批判的结果,LLM对初始解释进行修改和完善,力求消除不忠实之处。4) 迭代:重复自我批判和解释改进的步骤,直到达到预定的迭代次数或满足一定的收敛条件。
关键创新:SR-NLE的关键创新在于引入了自批判和迭代改进的机制,使LLM能够主动提升NLE的忠实性。此外,论文还提出了一种基于特征归因的反馈方法,该方法通过突出显示重要的输入词来引导LLM关注关键信息,从而提高解释的准确性。与现有方法相比,SR-NLE无需外部监督或额外的训练,即可有效提升NLE的忠实性。
关键设计:SR-NLE框架的关键设计包括:1) 反馈机制:论文探索了两种反馈机制,包括自然语言自我反馈和基于特征归因的反馈。自然语言自我反馈通过提示LLM评估解释的合理性和完整性来引导改进。特征归因反馈则通过突出显示重要的输入词来引导LLM关注关键信息。2) 迭代次数:迭代次数是影响SR-NLE性能的重要参数。论文通过实验确定了合适的迭代次数,以在忠实性和计算成本之间取得平衡。3) 提示工程:论文使用了精心设计的提示语来引导LLM进行自我批判和解释改进,确保模型能够有效地利用反馈信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SR-NLE框架在三个数据集和四个最先进的LLM上均取得了显著的性能提升。最佳方法实现了平均36.02%的不忠实率,相比基线的54.81%降低了18.79%。这表明SR-NLE能够有效提升LLM生成解释的忠实性,使其更准确地反映模型的实际推理过程。
🎯 应用场景
SR-NLE框架可应用于各种需要可信赖解释的AI系统中,例如医疗诊断、金融风险评估和自动驾驶等领域。通过提高自然语言解释的忠实性,SR-NLE能够增强用户对模型预测的信任感,促进人机协作,并为模型的公平性和透明性提供保障。未来,该方法有望推动可解释性AI技术在更广泛领域的应用。
📄 摘要(原文)
With the rapid development of Large Language Models (LLMs), Natural Language Explanations (NLEs) have become increasingly important for understanding model predictions. However, these explanations often fail to faithfully represent the model's actual reasoning process. While existing work has demonstrated that LLMs can self-critique and refine their initial outputs for various tasks, this capability remains unexplored for improving explanation faithfulness. To address this gap, we introduce Self-critique and Refinement for Natural Language Explanations (SR-NLE), a framework that enables models to improve the faithfulness of their own explanations -- specifically, post-hoc NLEs -- through an iterative critique and refinement process without external supervision. Our framework leverages different feedback mechanisms to guide the refinement process, including natural language self-feedback and, notably, a novel feedback approach based on feature attribution that highlights important input words. Our experiments across three datasets and four state-of-the-art LLMs demonstrate that SR-NLE significantly reduces unfaithfulness rates, with our best method achieving an average unfaithfulness rate of 36.02%, compared to 54.81% for baseline -- an absolute reduction of 18.79%. These findings reveal that the investigated LLMs can indeed refine their explanations to better reflect their actual reasoning process, requiring only appropriate guidance through feedback without additional training or fine-tuning.