Can Language Models Explain Their Own Classification Behavior?
作者: Dane Sherburn, Bilal Chughtai, Owain Evans
分类: cs.LG, cs.AI
发布日期: 2024-05-13
💡 一句话要点
提出ArticulateRules数据集,评估LLM能否解释自身分类行为,揭示模型自解释能力差异。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自解释性 可解释性AI 数据集 分类任务
📋 核心要点
- 现有大型语言模型缺乏对其决策过程的透明解释,难以理解其内部运作机制。
- 论文提出ArticulateRules数据集,通过规则生成分类任务,评估模型能否用自然语言解释其分类行为。
- 实验表明,不同LLM的自解释能力差异显著,GPT-4优于GPT-3,且GPT-3难以通过微调提升自解释能力。
📝 摘要(中文)
大型语言模型(LLMs)在众多任务中表现出色,但解释其性能背后的过程是一个挑战。本文研究了LLMs是否能够对其自身内部过程给出忠实的高级解释。为此,我们引入了一个数据集ArticulateRules,该数据集由简单规则生成的少样本文本分类任务组成。每个规则都与一个简单的自然语言解释相关联。我们测试了那些已经学会胜任分类输入的模型(包括在分布内和分布外)是否能够表达与其分类行为相匹配的自由形式的自然语言解释。我们的数据集可以用于上下文学习和微调评估。我们评估了一系列LLMs,表明表达准确性在模型之间差异很大,从GPT-3到GPT-4的提升尤为明显。然后,我们研究了是否可以通过一系列方法来提高GPT-3的表达准确性。即使在对正确的解释进行额外的微调后,GPT-3仍然完全无法表达我们测试中的7/10条规则。我们发布了我们的数据集ArticulateRules,该数据集可用于测试通过上下文学习或微调训练的LLMs的自解释能力。
🔬 方法详解
问题定义:现有大型语言模型(LLMs)虽然在各种任务中表现出色,但缺乏对其决策过程的透明解释。这使得我们难以理解模型是如何做出特定决策的,也限制了模型在需要高可信度的场景中的应用。现有方法难以有效评估LLM的自解释能力,缺乏专门的数据集和评估指标。
核心思路:本文的核心思路是通过构建一个可控的数据集,即ArticulateRules,来评估LLMs的自解释能力。该数据集包含由简单规则生成的分类任务,并且每个规则都对应一个自然语言解释。通过比较模型生成的解释与真实规则的匹配程度,可以量化模型的自解释能力。
技术框架:整体框架包括以下几个步骤:1) 构建ArticulateRules数据集,包含规则、输入和对应的标签;2) 使用LLM对输入进行分类,并要求模型生成对分类结果的解释;3) 将模型生成的解释与真实规则进行比较,计算表达准确性。该框架可以用于评估不同LLM的自解释能力,也可以用于研究如何提高LLM的自解释能力。
关键创新:该论文的关键创新在于提出了ArticulateRules数据集,这是一个专门用于评估LLM自解释能力的数据集。与现有数据集相比,ArticulateRules数据集具有以下优点:1) 可控性:数据集中的规则是人为设计的,可以精确控制规则的复杂度和类型;2) 可解释性:每个规则都对应一个自然语言解释,方便评估模型生成的解释的准确性;3) 可扩展性:可以根据需要生成不同规模和类型的分类任务。
关键设计:ArticulateRules数据集的关键设计包括:1) 规则的设计:规则需要足够简单,以便人类可以理解,但也要足够复杂,以便能够测试模型的推理能力;2) 输入的设计:输入需要能够充分体现规则的特征,以便模型能够根据输入进行分类;3) 评估指标的设计:评估指标需要能够准确衡量模型生成的解释的准确性和完整性。论文中使用了准确率作为评估指标,即模型生成的解释与真实规则匹配的比例。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同LLM的自解释能力存在显著差异,GPT-4在ArticulateRules数据集上的表现明显优于GPT-3。即使经过额外的微调,GPT-3仍然难以准确表达数据集中的部分规则,表明提高LLM的自解释能力仍然是一个挑战。ArticulateRules数据集的发布为后续研究提供了有价值的资源。
🎯 应用场景
该研究成果可应用于开发更值得信任和可解释的人工智能系统。例如,在医疗诊断、金融风控等领域,如果模型能够清晰地解释其决策过程,将有助于提高人们对模型的信任度,并促进模型的应用。此外,该研究还可以用于改进LLM的训练方法,使其能够更好地理解和解释其自身的行为。
📄 摘要(原文)
Large language models (LLMs) perform well at a myriad of tasks, but explaining the processes behind this performance is a challenge. This paper investigates whether LLMs can give faithful high-level explanations of their own internal processes. To explore this, we introduce a dataset, ArticulateRules, of few-shot text-based classification tasks generated by simple rules. Each rule is associated with a simple natural-language explanation. We test whether models that have learned to classify inputs competently (both in- and out-of-distribution) are able to articulate freeform natural language explanations that match their classification behavior. Our dataset can be used for both in-context and finetuning evaluations. We evaluate a range of LLMs, demonstrating that articulation accuracy varies considerably between models, with a particularly sharp increase from GPT-3 to GPT-4. We then investigate whether we can improve GPT-3's articulation accuracy through a range of methods. GPT-3 completely fails to articulate 7/10 rules in our test, even after additional finetuning on correct explanations. We release our dataset, ArticulateRules, which can be used to test self-explanation for LLMs trained either in-context or by finetuning.