The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models
作者: Noah Y. Siegel, Oana-Maria Camburu, Nicolas Heess, Maria Perez-Ortiz
分类: cs.CL, cs.AI
发布日期: 2024-04-04 (更新: 2024-06-07)
备注: To be published in ACL 2024. 19 pages, 2 figures
💡 一句话要点
提出相关解释信度度量以解决大语言模型解释可信度问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 解释性人工智能 信度评估 大型语言模型 自然语言处理 反事实测试
📋 核心要点
- 现有方法在评估大型语言模型生成的解释时,主要依赖于二元变化,无法全面反映模型预测的信度。
- 论文提出了相关解释信度(CEF)度量,考虑模型预测标签分布的整体变化,从而更准确地评估解释的可信度。
- 通过在三个自然语言处理任务上应用CEF,发现其能够捕捉到传统反事实测试未能识别的信度方面,提升了评估效果。
📝 摘要(中文)
为了监督先进的人工智能系统,理解其决策过程至关重要。当被提示时,大型语言模型(LLMs)能够提供听起来合理的自然语言解释或推理轨迹,且获得人类评审者的高评分。然而,这些解释的可信度,即是否真实反映模型预测的因素,仍不明确。本研究提出了相关解释信度(CEF)这一度量标准,用于基于输入干预的信度测试。以往的度量仅考虑预测的二元变化,而我们的度量则考虑模型预测标签分布的整体变化,更准确地反映了解释的可信度。我们还通过在Atanasova等(2023)的反事实测试(CT)上实例化CEF,提出了相关反事实测试(CCT)。我们在三个自然语言处理任务上评估了少量示例提示的LLMs生成的自由文本解释的可信度,发现我们的度量能够捕捉CT遗漏的信度方面。
🔬 方法详解
问题定义:本论文旨在解决大型语言模型生成的自由文本解释的可信度评估问题。现有方法主要依赖二元变化,无法全面反映模型预测的真实信度,导致评估结果的片面性。
核心思路:论文提出的相关解释信度(CEF)度量,通过考虑模型预测标签分布的整体变化,提供了一种更全面的信度评估方式。这种设计旨在更真实地反映模型决策过程中的关键因素。
技术框架:整体框架包括两个主要模块:首先,基于输入干预生成模型的预测标签分布;其次,计算CEF以评估解释的可信度。通过引入相关反事实测试(CCT),将CEF应用于具体的自然语言处理任务中。
关键创新:最重要的技术创新在于CEF度量的提出,它与传统的二元变化度量方法本质上不同,能够捕捉到更细致的信度变化,提升了评估的准确性。
关键设计:在技术细节上,CEF的计算涉及对模型预测标签分布的统计分析,具体参数设置和损失函数设计尚未详细披露,需进一步研究以优化模型性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用相关解释信度(CEF)度量的模型在三个自然语言处理任务中,相较于传统的反事实测试(CT),能够捕捉到更多的信度方面,提升了评估的全面性和准确性。具体性能数据尚未披露,但研究表明CEF在信度评估中具有显著优势。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、机器学习模型的可解释性评估以及人工智能系统的透明性提升。通过提供更准确的信度评估方法,能够帮助开发者和研究人员更好地理解和改进模型的决策过程,进而提高模型的可靠性和用户信任度。
📄 摘要(原文)
In order to oversee advanced AI systems, it is important to understand their underlying decision-making process. When prompted, large language models (LLMs) can provide natural language explanations or reasoning traces that sound plausible and receive high ratings from human annotators. However, it is unclear to what extent these explanations are faithful, i.e., truly capture the factors responsible for the model's predictions. In this work, we introduce Correlational Explanatory Faithfulness (CEF), a metric that can be used in faithfulness tests based on input interventions. Previous metrics used in such tests take into account only binary changes in the predictions. Our metric accounts for the total shift in the model's predicted label distribution, more accurately reflecting the explanations' faithfulness. We then introduce the Correlational Counterfactual Test (CCT) by instantiating CEF on the Counterfactual Test (CT) from Atanasova et al. (2023). We evaluate the faithfulness of free-text explanations generated by few-shot-prompted LLMs from the Llama2 family on three NLP tasks. We find that our metric measures aspects of faithfulness which the CT misses.