Explanation sensitivity to the randomness of large language models: the case of journalistic text classification

作者: Jeremie Bogaert, Marie-Catherine de Marneffe, Antonin Descampe, Louis Escouflaire, Cedrick Fairon, Francois-Xavier Standaert

分类: cs.CL

发布日期: 2024-10-07

备注: This paper is a faithful translation of a paper which was peer-reviewed and published in the French journal Traitement Automatique des Langues, n. 64

期刊: Traitement Automatique des Langues 64, 2023, ATALA, Paris

💡 一句话要点

揭示LLM随机性对解释性的影响：以新闻文本分类为例

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可解释性 随机性 新闻文本分类 相关性传播

📋 核心要点

现有大型语言模型的可解释性不足，其预测结果难以理解和验证。
通过分析不同随机种子训练的LLM，研究其预测解释的统计分布，从而提升可解释性。
实验表明，不同随机种子训练的模型准确率相近，但解释差异大，且简单模型可通过LLM解释增强。

📝 摘要（中文）

大型语言模型（LLMs）在多个自然语言处理任务中表现出色，但也带来了可解释性方面的挑战。本文研究了LLMs训练中随机因素对预测可解释性的影响。我们以法语新闻评论文本分类任务为例，使用微调的CamemBERT模型和基于相关性传播的解释方法，发现使用不同随机种子训练的模型具有相似的准确率，但解释结果却存在差异。因此，我们认为需要对解释的统计分布进行表征，以提高LLMs的可解释性。我们还探索了一个基于文本特征的更简单模型，该模型提供稳定的解释，但准确率较低。因此，这个更简单的模型代表了准确率和可解释性之间的不同权衡。我们展示了可以通过插入从CamemBERT的解释中提取的特征来改进它。最后，我们讨论了我们的结果所暗示的新的研究方向，特别是关于在训练随机性中观察到的敏感性的起源。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在文本分类任务中可解释性不足的问题。现有方法难以解释LLMs的预测结果，并且LLMs训练过程中的随机性可能导致解释结果不稳定。具体来说，论文关注的是在意见性新闻文本分类任务中，LLMs的预测解释如何受到训练时随机种子的影响。

核心思路：论文的核心思路是研究LLMs训练过程中的随机性（例如随机种子）对模型预测解释的影响。通过分析不同随机种子训练出的模型的解释结果的差异，来评估LLMs解释的稳定性。同时，探索使用更简单的模型来获得更稳定的解释，并尝试将LLMs的解释信息融入到简单模型中，以提高其性能。

技术框架：论文的技术框架主要包括以下几个步骤：1) 使用不同的随机种子训练CamemBERT模型，用于法语新闻评论文本分类任务。2) 使用基于相关性传播的解释方法，为每个模型的预测生成解释。3) 分析不同模型生成的解释的差异，评估解释的稳定性。4) 构建一个基于文本特征的更简单的模型，并评估其性能和解释的稳定性。5) 将CamemBERT模型的解释信息作为特征，加入到简单模型中，并评估其性能提升。

关键创新：论文的关键创新在于揭示了LLMs训练过程中的随机性对模型预测解释的显著影响。以往的研究较少关注训练随机性对解释稳定性的影响，而本文通过实验证明，即使模型准确率相近，不同随机种子训练的模型生成的解释也可能存在很大差异。此外，论文还提出了一种将LLMs的解释信息融入到简单模型中的方法，从而在一定程度上提高了简单模型的性能。

关键设计：论文的关键设计包括：1) 使用CamemBERT模型，这是一个预训练的法语语言模型，适合处理法语文本分类任务。2) 使用基于相关性传播的解释方法，该方法可以为模型的预测结果生成解释，突出显示对预测贡献最大的输入特征。3) 通过比较不同随机种子训练的模型生成的解释的差异，来评估解释的稳定性。4) 构建一个基于文本特征的简单模型，例如使用TF-IDF特征和逻辑回归分类器。5) 将CamemBERT模型的解释信息（例如重要性得分最高的词语）作为特征，加入到简单模型中，并使用交叉验证等方法评估其性能提升。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用不同随机种子训练的CamemBERT模型在新闻文本分类任务中具有相似的准确率，但其预测解释却存在显著差异，这突显了LLM解释的随机性问题。通过将CamemBERT的解释特征融入简单模型，简单模型的性能得到了提升，表明LLM的解释信息具有一定的价值。

🎯 应用场景

该研究成果可应用于提升自然语言处理模型的可信度和可解释性，尤其是在新闻分析、舆情监控等对解释性要求较高的领域。通过降低模型解释对随机性的敏感度，可以提高用户对模型预测结果的信任度，并促进模型在实际场景中的应用。未来的研究可以探索更鲁棒的解释方法，以及如何利用解释信息来改进模型的训练过程。

📄 摘要（原文）

Large language models (LLMs) perform very well in several natural language processing tasks but raise explainability challenges. In this paper, we examine the effect of random elements in the training of LLMs on the explainability of their predictions. We do so on a task of opinionated journalistic text classification in French. Using a fine-tuned CamemBERT model and an explanation method based on relevance propagation, we find that training with different random seeds produces models with similar accuracy but variable explanations. We therefore claim that characterizing the explanations' statistical distribution is needed for the explainability of LLMs. We then explore a simpler model based on textual features which offers stable explanations but is less accurate. Hence, this simpler model corresponds to a different tradeoff between accuracy and explainability. We show that it can be improved by inserting features derived from CamemBERT's explanations. We finally discuss new research directions suggested by our results, in particular regarding the origin of the sensitivity observed in the training randomness.

Explanation sensitivity to the randomness of large language models: the case of journalistic text classification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理