Noiser: Bounded Input Perturbations for Attributing Large Language Models

📄 arXiv: 2504.02911v1 📥 PDF

作者: Mohammad Reza Ghasemi Madani, Aryo Pradipta Gema, Gabriele Sarti, Yu Zhao, Pasquale Minervini, Andrea Passerini

分类: cs.CL, cs.AI

发布日期: 2025-04-03


💡 一句话要点

提出Noiser,通过有界输入扰动提升大语言模型归因的忠实性和可回答性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 特征归因 可解释性 有界扰动 鲁棒性 可回答性 后验分析

📋 核心要点

  1. 现有特征归因方法在解释LLM预测时,难以保证归因结果的忠实性,无法准确反映模型内部行为。
  2. Noiser通过对输入嵌入施加有界噪声,并分析模型对噪声输入的鲁棒性,从而实现更可靠的特征归因。
  3. 实验表明,Noiser在多个LLM和任务上,显著优于现有方法,提升了归因的忠实性和可回答性。

📝 摘要(中文)

特征归因(FA)方法是常用的后验方法,用于解释大型语言模型(LLM)如何进行预测。因此,生成反映模型实际内部行为的忠实归因至关重要。本文介绍了一种基于扰动的FA方法Noiser,它对每个输入嵌入施加有界噪声,并测量模型对部分噪声输入的鲁棒性,从而获得输入归因。此外,我们提出了一种可回答性指标,该指标使用一个经过指导的判断模型来评估高分token足以恢复预测输出的程度。通过对六个LLM和三个任务的全面评估,我们证明了Noiser在忠实性和可回答性方面始终优于现有的基于梯度、基于注意力和基于扰动的FA方法,使其成为解释语言模型预测的稳健有效的方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)特征归因方法中,归因结果不够忠实的问题。现有的基于梯度、注意力或扰动的特征归因方法,在解释LLM的预测时,可能无法准确反映模型内部的真实决策过程,导致归因结果与模型的实际行为不一致。

核心思路:Noiser的核心思路是通过对输入嵌入施加有界噪声,并观察模型输出的变化,来评估每个输入token对模型预测的重要性。这种方法模拟了模型在面对噪声输入时的鲁棒性,从而更准确地识别对模型决策至关重要的token。通过测量模型对部分噪声输入的鲁棒性,可以获得更可靠的输入归因。

技术框架:Noiser的整体框架包括以下几个步骤:1) 对输入文本进行嵌入表示;2) 对每个输入嵌入添加有界噪声,噪声的大小由一个超参数控制;3) 将噪声输入送入LLM,得到预测结果;4) 计算噪声输入和原始输入之间的预测差异,作为该token的归因得分;5) 使用提出的可回答性指标评估归因结果的质量。

关键创新:Noiser的关键创新在于引入了有界噪声的概念,并将其应用于特征归因。与传统的扰动方法不同,Noiser限制了噪声的大小,避免了对输入造成过大的干扰,从而保证了归因结果的稳定性和可靠性。此外,提出的可回答性指标能够有效评估归因结果的质量,为选择最佳的归因方法提供了依据。

关键设计:Noiser的关键设计包括:1) 噪声的边界选择:论文通过实验确定了合适的噪声边界,以保证归因结果的准确性;2) 可回答性指标的设计:该指标使用一个经过指导的判断模型来评估高分token足以恢复预测输出的程度,从而衡量归因结果的质量;3) 损失函数:Noiser没有使用特定的损失函数,而是直接基于模型输出的差异来计算归因得分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Noiser在六个LLM和三个任务上,均优于现有的基于梯度、基于注意力和基于扰动的FA方法。具体而言,Noiser在忠实性方面取得了显著提升,并且在可回答性指标上也表现出色。这些结果表明,Noiser是一种更稳健、更有效的LLM特征归因方法。

🎯 应用场景

Noiser可应用于多种场景,例如:提高LLM的可解释性,帮助用户理解模型的决策过程;诊断LLM的潜在偏差,发现模型可能存在的偏见;改进LLM的训练,通过分析归因结果来优化模型的性能;在安全关键领域,例如医疗诊断和金融风控,提高LLM应用的可靠性。

📄 摘要(原文)

Feature attribution (FA) methods are common post-hoc approaches that explain how Large Language Models (LLMs) make predictions. Accordingly, generating faithful attributions that reflect the actual inner behavior of the model is crucial. In this paper, we introduce Noiser, a perturbation-based FA method that imposes bounded noise on each input embedding and measures the robustness of the model against partially noised input to obtain the input attributions. Additionally, we propose an answerability metric that employs an instructed judge model to assess the extent to which highly scored tokens suffice to recover the predicted output. Through a comprehensive evaluation across six LLMs and three tasks, we demonstrate that Noiser consistently outperforms existing gradient-based, attention-based, and perturbation-based FA methods in terms of both faithfulness and answerability, making it a robust and effective approach for explaining language model predictions.