Can Language Models Explain Their Own Classification Behavior?

作者: Dane Sherburn, Bilal Chughtai, Owain Evans

分类: cs.LG, cs.AI

发布日期: 2024-05-13

💡 一句话要点

提出ArticulateRules数据集，评估LLM能否解释自身分类行为，揭示模型自解释能力差异。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自解释性 可解释性AI 数据集 分类任务

📋 核心要点

现有大型语言模型缺乏对其决策过程的透明解释，难以理解其内部运作机制。
论文提出ArticulateRules数据集，通过规则生成分类任务，评估模型能否用自然语言解释其分类行为。
实验表明，不同LLM的自解释能力差异显著，GPT-4优于GPT-3，且GPT-3难以通过微调提升自解释能力。

📝 摘要（中文）

大型语言模型（LLMs）在众多任务中表现出色，但解释其性能背后的过程是一个挑战。本文研究了LLMs是否能够对其自身内部过程给出忠实的高级解释。为此，我们引入了一个数据集ArticulateRules，该数据集由简单规则生成的少样本文本分类任务组成。每个规则都与一个简单的自然语言解释相关联。我们测试了那些已经学会胜任分类输入的模型（包括在分布内和分布外）是否能够表达与其分类行为相匹配的自由形式的自然语言解释。我们的数据集可以用于上下文学习和微调评估。我们评估了一系列LLMs，表明表达准确性在模型之间差异很大，从GPT-3到GPT-4的提升尤为明显。然后，我们研究了是否可以通过一系列方法来提高GPT-3的表达准确性。即使在对正确的解释进行额外的微调后，GPT-3仍然完全无法表达我们测试中的7/10条规则。我们发布了我们的数据集ArticulateRules，该数据集可用于测试通过上下文学习或微调训练的LLMs的自解释能力。

🔬 方法详解

问题定义：现有大型语言模型（LLMs）虽然在各种任务中表现出色，但缺乏对其决策过程的透明解释。这使得我们难以理解模型是如何做出特定决策的，也限制了模型在需要高可信度的场景中的应用。现有方法难以有效评估LLM的自解释能力，缺乏专门的数据集和评估指标。

核心思路：本文的核心思路是通过构建一个可控的数据集，即ArticulateRules，来评估LLMs的自解释能力。该数据集包含由简单规则生成的分类任务，并且每个规则都对应一个自然语言解释。通过比较模型生成的解释与真实规则的匹配程度，可以量化模型的自解释能力。

技术框架：整体框架包括以下几个步骤：1) 构建ArticulateRules数据集，包含规则、输入和对应的标签；2) 使用LLM对输入进行分类，并要求模型生成对分类结果的解释；3) 将模型生成的解释与真实规则进行比较，计算表达准确性。该框架可以用于评估不同LLM的自解释能力，也可以用于研究如何提高LLM的自解释能力。

关键创新：该论文的关键创新在于提出了ArticulateRules数据集，这是一个专门用于评估LLM自解释能力的数据集。与现有数据集相比，ArticulateRules数据集具有以下优点：1) 可控性：数据集中的规则是人为设计的，可以精确控制规则的复杂度和类型；2) 可解释性：每个规则都对应一个自然语言解释，方便评估模型生成的解释的准确性；3) 可扩展性：可以根据需要生成不同规模和类型的分类任务。

关键设计：ArticulateRules数据集的关键设计包括：1) 规则的设计：规则需要足够简单，以便人类可以理解，但也要足够复杂，以便能够测试模型的推理能力；2) 输入的设计：输入需要能够充分体现规则的特征，以便模型能够根据输入进行分类；3) 评估指标的设计：评估指标需要能够准确衡量模型生成的解释的准确性和完整性。论文中使用了准确率作为评估指标，即模型生成的解释与真实规则匹配的比例。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同LLM的自解释能力存在显著差异，GPT-4在ArticulateRules数据集上的表现明显优于GPT-3。即使经过额外的微调，GPT-3仍然难以准确表达数据集中的部分规则，表明提高LLM的自解释能力仍然是一个挑战。ArticulateRules数据集的发布为后续研究提供了有价值的资源。

🎯 应用场景

该研究成果可应用于开发更值得信任和可解释的人工智能系统。例如，在医疗诊断、金融风控等领域，如果模型能够清晰地解释其决策过程，将有助于提高人们对模型的信任度，并促进模型的应用。此外，该研究还可以用于改进LLM的训练方法，使其能够更好地理解和解释其自身的行为。

📄 摘要（原文）

Large language models (LLMs) perform well at a myriad of tasks, but explaining the processes behind this performance is a challenge. This paper investigates whether LLMs can give faithful high-level explanations of their own internal processes. To explore this, we introduce a dataset, ArticulateRules, of few-shot text-based classification tasks generated by simple rules. Each rule is associated with a simple natural-language explanation. We test whether models that have learned to classify inputs competently (both in- and out-of-distribution) are able to articulate freeform natural language explanations that match their classification behavior. Our dataset can be used for both in-context and finetuning evaluations. We evaluate a range of LLMs, demonstrating that articulation accuracy varies considerably between models, with a particularly sharp increase from GPT-3 to GPT-4. We then investigate whether we can improve GPT-3's articulation accuracy through a range of methods. GPT-3 completely fails to articulate 7/10 rules in our test, even after additional finetuning on correct explanations. We release our dataset, ArticulateRules, which can be used to test self-explanation for LLMs trained either in-context or by finetuning.

Can Language Models Explain Their Own Classification Behavior?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理