DISCERN: Decoding Systematic Errors in Natural Language for Text Classifiers

📄 arXiv: 2410.22239v1 📥 PDF

作者: Rakesh R. Menon, Shashank Srivastava

分类: cs.CL, cs.LG

发布日期: 2024-10-29

备注: 20 pages, 9 figures, 15 tables; Accepted to EMNLP 2024


💡 一句话要点

DISCERN:利用自然语言解释解码文本分类器中的系统性误差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本分类 系统性偏差 自然语言解释 大型语言模型 数据增强

📋 核心要点

  1. 现有文本分类器存在系统性偏差,源于标注问题或类别不平衡,影响模型泛化能力。
  2. DISCERN框架利用大型语言模型迭代生成系统性误差的自然语言描述,提升可解释性。
  3. 通过合成数据或主动学习,DISCERN利用语言解释改进分类器,实验证明性能优于传统方法。

📝 摘要(中文)

当前机器学习系统虽然具有较高的预测准确率,但常常表现出系统性偏差,这些偏差源于标注伪影或数据集中对某些类别的支持不足。最近的研究提出了使用关键词自动识别和解释系统性偏差的方法。我们介绍DISCERN,一个利用语言解释来解释文本分类器中系统性偏差的框架。DISCERN通过在两个大型语言模型之间建立交互循环,迭代地生成系统性误差的精确自然语言描述。最后,我们通过使用合成生成的实例或通过主动学习标注的示例来扩充分类器训练集,从而利用这些描述来改进分类器。在三个文本分类数据集上,我们证明了来自我们框架的语言解释能够带来持续的性能提升,超越了系统性偏差示例所能实现的水平。最后,在人工评估中,我们表明,与通过聚类示例描述相比,用户可以通过语言解释更有效(相对超过25%)和高效地解释系统性偏差。

🔬 方法详解

问题定义:文本分类器虽然准确率高,但存在系统性误差,这些误差源于数据标注的偏差或某些类别样本不足。现有方法通常使用关键词或示例来识别和解释这些偏差,但缺乏自然语言的精确描述,难以理解和利用这些偏差信息来改进模型。

核心思路:DISCERN的核心思路是利用大型语言模型生成系统性误差的自然语言解释。通过迭代地生成和评估这些解释,DISCERN能够提供精确且易于理解的偏差描述,从而帮助用户更好地理解模型的弱点,并指导数据增强或模型改进。

技术框架:DISCERN框架包含两个主要模块:偏差解释生成器和偏差解释评估器。偏差解释生成器使用一个大型语言模型来生成候选的偏差解释。偏差解释评估器使用另一个大型语言模型来评估这些解释的质量,并选择最佳的解释。这两个模块在一个交互循环中工作,迭代地生成和评估解释,直到找到一个满意的解释。然后,利用这些解释,通过数据增强(生成新的训练样本)或主动学习(选择需要人工标注的样本)来改进分类器。

关键创新:DISCERN的关键创新在于使用自然语言解释来描述系统性误差。与传统的关键词或示例方法相比,自然语言解释更具表达力,更易于理解,并且可以更有效地用于指导模型改进。此外,DISCERN使用一个交互循环来迭代地生成和评估解释,从而能够找到更精确和有用的解释。

关键设计:DISCERN使用两个大型语言模型,一个用于生成解释,另一个用于评估解释。生成器模型可以使用任何预训练的语言模型,例如GPT-3或T5。评估器模型需要能够评估解释的质量,例如,它可以预测解释是否能够准确地描述模型的错误。数据增强策略包括使用生成的解释来创建新的训练样本,例如,通过将解释作为提示传递给另一个语言模型来生成新的文本。主动学习策略包括使用解释来选择需要人工标注的样本,例如,选择那些与解释最相关的样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DISCERN生成的语言解释能够显著提高文本分类器的性能。在三个文本分类数据集上,DISCERN的性能优于基线方法,包括使用关键词和示例的方法。此外,人工评估表明,用户可以通过语言解释更有效和高效地理解系统性偏差,相对提升超过25%。

🎯 应用场景

DISCERN可应用于各种文本分类任务,例如情感分析、主题分类和垃圾邮件检测。通过识别和纠正系统性偏差,DISCERN可以提高文本分类器的公平性、鲁棒性和可解释性。该研究的成果有助于构建更可靠、更值得信赖的AI系统,并促进人与AI之间的有效协作。

📄 摘要(原文)

Despite their high predictive accuracies, current machine learning systems often exhibit systematic biases stemming from annotation artifacts or insufficient support for certain classes in the dataset. Recent work proposes automatic methods for identifying and explaining systematic biases using keywords. We introduce DISCERN, a framework for interpreting systematic biases in text classifiers using language explanations. DISCERN iteratively generates precise natural language descriptions of systematic errors by employing an interactive loop between two large language models. Finally, we use the descriptions to improve classifiers by augmenting classifier training sets with synthetically generated instances or annotated examples via active learning. On three text-classification datasets, we demonstrate that language explanations from our framework induce consistent performance improvements that go beyond what is achievable with exemplars of systematic bias. Finally, in human evaluations, we show that users can interpret systematic biases more effectively (by over 25% relative) and efficiently when described through language explanations as opposed to cluster exemplars.