Uniform Discretized Integrated Gradients: An effective attribution based method for explaining large language models

📄 arXiv: 2412.03886v1 📥 PDF

作者: Swarnava Sinha Roy, Ayan Kundu

分类: cs.CL, cs.AI

发布日期: 2024-12-05


💡 一句话要点

提出均匀离散积分梯度(UDIG),有效解释大型语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可解释性 大型语言模型 积分梯度 非线性插值 归因方法 自然语言处理 情感分类 问答系统

📋 核心要点

  1. 现有积分梯度方法在处理LLM的离散词嵌入空间时,采用线性路径进行梯度计算,效果不佳。
  2. UDIG方法提出一种新的插值策略,选择非线性路径,使中间点更接近实际词嵌入,从而优化归因分数计算。
  3. 实验表明,UDIG在情感分类和问答任务中,使用多个数据集和指标,均优于现有方法。

📝 摘要(中文)

积分梯度是一种用于解释深度学习模型的著名技术。它通过计算模型输出相对于输入特征的梯度,并沿线性路径累积这些梯度来计算特征重要性得分。虽然这对于连续特征空间效果良好,但对于像词嵌入这样的离散空间,它可能不是最佳方法。为了解释大型语言模型(LLM),需要一种非线性路径,其中要计算梯度的中间点位于嵌入空间中实际单词附近。在本文中,我们提出了一种名为均匀离散积分梯度(UDIG)的方法,该方法基于一种新的插值策略,我们选择一种有利的非线性路径来计算适用于预测语言模型的归因分数。我们针对两种类型的NLP任务(情感分类和问答)评估了我们的方法,使用了对数几率、完整性和充分性三个指标。对于情感分类,我们使用了SST2、IMDb和Rotten Tomatoes数据集进行基准测试,对于问答,我们使用了在SQuAD数据集上微调的BERT模型。我们的方法在几乎所有指标上都优于现有方法。

🔬 方法详解

问题定义:现有积分梯度方法在解释大型语言模型时,由于其离散的词嵌入空间特性,采用线性插值路径计算梯度会导致效果不佳。传统的积分梯度方法主要针对连续特征空间设计,无法很好地适应离散的词嵌入空间,导致归因结果不准确。

核心思路:UDIG的核心思路是引入一种新的非线性插值策略,使得在计算积分梯度时,中间点能够更接近实际的词嵌入。通过这种方式,可以更好地捕捉词与词之间的语义关系,从而提高归因结果的准确性和可解释性。

技术框架:UDIG方法主要包含以下几个阶段:1. 选择起始点和目标点(即原始输入和基准输入);2. 在词嵌入空间中,构建一条从起始点到目标点的非线性路径,该路径上的点尽可能接近实际的词嵌入;3. 沿着该路径,计算模型输出相对于输入特征的梯度;4. 累积这些梯度,得到最终的归因分数。

关键创新:UDIG最重要的创新点在于其非线性插值策略。与传统的线性插值不同,UDIG尝试在离散的词嵌入空间中找到一条更自然的路径,从而更好地反映词语之间的语义关系。这种非线性路径的选择是UDIG能够优于现有方法的核心原因。

关键设计:UDIG的关键设计包括:1. 如何选择合适的非线性路径,例如可以使用某种聚类算法或者图算法来找到一条连接起始点和目标点的、由实际词嵌入构成的路径;2. 如何确定路径上的采样点,采样点的密度会影响最终的归因结果;3. 如何有效地计算和累积梯度,可以使用一些优化技巧来提高计算效率。

📊 实验亮点

UDIG在情感分类任务(SST2、IMDb、Rotten Tomatoes数据集)和问答任务(SQuAD数据集上的BERT模型)上进行了评估。实验结果表明,UDIG在对数几率、完整性和充分性等多个指标上均优于现有的积分梯度方法。具体提升幅度取决于数据集和任务,但总体而言,UDIG能够提供更准确和可信的归因结果。

🎯 应用场景

UDIG方法可应用于各种需要解释大型语言模型预测结果的场景,例如:文本分类、情感分析、问答系统、机器翻译等。通过提供对模型预测的更清晰解释,可以提高用户对模型的信任度,并帮助开发者更好地理解和改进模型。此外,该方法还可以用于检测模型中的偏差和漏洞,从而提高模型的公平性和鲁棒性。

📄 摘要(原文)

Integrated Gradients is a well-known technique for explaining deep learning models. It calculates feature importance scores by employing a gradient based approach computing gradients of the model output with respect to input features and accumulating them along a linear path. While this works well for continuous features spaces, it may not be the most optimal way to deal with discrete spaces like word embeddings. For interpreting LLMs (Large Language Models), there exists a need for a non-linear path where intermediate points, whose gradients are to be computed, lie close to actual words in the embedding space. In this paper, we propose a method called Uniform Discretized Integrated Gradients (UDIG) based on a new interpolation strategy where we choose a favorable nonlinear path for computing attribution scores suitable for predictive language models. We evaluate our method on two types of NLP tasks- Sentiment Classification and Question Answering against three metrics viz Log odds, Comprehensiveness and Sufficiency. For sentiment classification, we have used the SST2, IMDb and Rotten Tomatoes datasets for benchmarking and for Question Answering, we have used the fine-tuned BERT model on SQuAD dataset. Our approach outperforms the existing methods in almost all the metrics.