Evaluating Human Alignment and Model Faithfulness of LLM Rationale

作者: Mohsen Fayyaz, Fan Yin, Jiao Sun, Nanyun Peng

分类: cs.CL, cs.AI

发布日期: 2024-06-28 (更新: 2024-10-22)

💡 一句话要点

评估LLM推理的对齐性和忠实性：提示 vs. 归因方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可解释性 对齐性 忠实性 提示学习 归因方法 模型评估

📋 核心要点

现有研究缺乏对LLM推理对齐性和忠实性的全面评估，尤其是在考虑模型准确性影响的情况下。
论文对比了基于提示和基于归因两种方法生成的LLM推理，评估其与人类推理的对齐性和对模型决策的忠实性。
实验表明，基于归因的方法在对齐性和忠实性方面优于基于提示的方法，且微调可以显著提升归因方法的对齐性。

📝 摘要（中文）

本文研究了大型语言模型（LLM）如何通过推理来解释其生成结果，推理是指从输入文本中提取的一组token，反映了LLM的决策过程。具体而言，我们系统地研究了使用两种方法导出的推理：（1）流行的基于提示的方法，其中使用提示来指导LLM生成推理；（2）基于技术归因的方法，该方法利用注意力或梯度来识别重要token。我们的分析涵盖了三个带有标注推理的分类数据集，包含不同性能水平的任务。虽然基于提示的自我解释被广泛使用，但我们的研究表明，这些解释与基于归因的解释相比，并非总是与人类推理“对齐”。更重要的是，微调LLM以提高分类任务的准确性并不能提高基于提示的推理的对齐性。尽管如此，它确实显着提高了基于归因的方法（例如，InputXGradient）的对齐性。更重要的是，我们表明，基于提示的自我解释的“忠实性”也低于基于归因的解释，未能提供模型决策过程的可靠说明。为了评估忠实性，与之前排除错误分类示例的研究不同，我们评估了所有实例，并检查了微调和准确性对对齐性和忠实性的影响。我们的研究结果表明，早期研究中报告的不确定的忠实性结果可能源于较低的分类准确性。这些发现强调了对LLM推理进行更严格和更全面的评估的重要性。

🔬 方法详解

问题定义：现有方法，特别是基于提示的LLM自我解释，在解释模型决策过程时可能不够准确和可靠。之前的研究在评估LLM推理的忠实性时，通常会排除错误分类的样本，这可能导致评估结果产生偏差。因此，需要更全面和严格的方法来评估LLM推理的对齐性和忠实性，并考虑模型准确性的影响。

核心思路：论文的核心思路是通过对比基于提示和基于归因两种方法生成的LLM推理，来评估其与人类推理的对齐性以及对模型决策的忠实性。同时，论文还研究了微调对这两种方法的影响，并分析了模型准确性对评估结果的影响。

技术框架：论文的技术框架主要包括以下几个步骤：1) 使用基于提示和基于归因的方法生成LLM推理；2) 使用人工标注的推理作为ground truth，评估LLM推理的对齐性；3) 通过分析LLM推理对模型决策的影响，评估LLM推理的忠实性；4) 研究微调对LLM推理的对齐性和忠实性的影响；5) 分析模型准确性对评估结果的影响。

关键创新：论文的关键创新在于：1) 系统地对比了基于提示和基于归因两种方法生成的LLM推理的对齐性和忠实性；2) 提出了在评估LLM推理的忠实性时，应该考虑所有样本，包括错误分类的样本；3) 揭示了模型准确性对LLM推理评估结果的影响。

关键设计：论文的关键设计包括：1) 使用了三种不同的分类数据集，以保证评估结果的泛化性；2) 使用了多种基于提示和基于归因的方法，以保证评估结果的全面性；3) 使用了多种评估指标，包括对齐性和忠实性指标，以保证评估结果的可靠性；4) 考虑了微调和模型准确性对评估结果的影响，以保证评估结果的客观性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于归因的方法在对齐性和忠实性方面优于基于提示的方法。例如，InputXGradient方法在对齐性方面表现最佳。此外，微调可以显著提升基于归因的方法的对齐性，但对基于提示的方法的提升不明显。更重要的是，研究发现，在评估LLM推理的忠实性时，考虑所有样本（包括错误分类的样本）非常重要，否则可能会导致评估结果产生偏差。

🎯 应用场景

该研究成果可应用于提升LLM的可解释性和可靠性，例如在医疗诊断、金融风控等高风险领域，帮助用户理解LLM的决策过程，从而更好地信任和使用LLM。此外，该研究还可以指导LLM的训练和优化，使其能够生成更准确、更可靠的推理。

📄 摘要（原文）

We study how well large language models (LLMs) explain their generations through rationales -- a set of tokens extracted from the input text that reflect the decision-making process of LLMs. Specifically, we systematically study rationales derived using two approaches: (1) popular prompting-based methods, where prompts are used to guide LLMs in generating rationales, and (2) technical attribution-based methods, which leverage attention or gradients to identify important tokens. Our analysis spans three classification datasets with annotated rationales, encompassing tasks with varying performance levels. While prompting-based self-explanations are widely used, our study reveals that these explanations are not always as "aligned" with the human rationale as attribution-based explanations. Even more so, fine-tuning LLMs to enhance classification task accuracy does not enhance the alignment of prompting-based rationales. Still, it does considerably improve the alignment of attribution-based methods (e.g., InputXGradient). More importantly, we show that prompting-based self-explanation is also less "faithful" than attribution-based explanations, failing to provide a reliable account of the model's decision-making process. To evaluate faithfulness, unlike prior studies that excluded misclassified examples, we evaluate all instances and also examine the impact of fine-tuning and accuracy on alignment and faithfulness. Our findings suggest that inconclusive faithfulness results reported in earlier studies may stem from low classification accuracy. These findings underscore the importance of more rigorous and comprehensive evaluations of LLM rationales.

Evaluating Human Alignment and Model Faithfulness of LLM Rationale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理