SPEX: Scaling Feature Interaction Explanations for LLMs
作者: Justin Singh Kang, Landon Butler, Abhineet Agarwal, Yigit Efe Erginbas, Ramtin Pedarsani, Kannan Ramchandran, Bin Yu
分类: cs.LG, cs.AI, cs.CL, cs.IT
发布日期: 2025-02-19
💡 一句话要点
SPEX:扩展LLM特征交互解释,高效处理长输入
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM解释性 特征交互 稀疏傅里叶变换 长文本理解 模型无关 可解释AI 信道解码
📋 核心要点
- 现有SHAP等方法在解释LLM时,计算特征交互重要性无法有效扩展到长输入,限制了解释能力。
- SPEX利用真实数据中交互的稀疏性,通过稀疏傅里叶变换和信道解码高效识别重要交互。
- 实验表明,SPEX在长文本任务中显著优于边际归因方法,并能识别与人类标注对齐的关键交互。
📝 摘要(中文)
大型语言模型(LLM)因其能够捕捉输入特征之间复杂的交互而彻底改变了机器学习。流行的事后解释方法如SHAP提供了边际特征归因,但其扩展到交互重要性的方法仅能扩展到较短的输入长度(约20)。我们提出了Spectral Explainer(SPEX),一种模型无关的交互归因算法,可以有效地扩展到较长的输入长度(约1000)。SPEX利用交互中潜在的自然稀疏性(在真实世界数据中很常见),并应用稀疏傅里叶变换,使用信道解码算法来有效地识别重要的交互。我们在三个困难的长上下文数据集上进行了实验,这些数据集要求LLM利用输入之间的交互来完成任务。对于大型输入,SPEX在忠实地重建LLM输出方面,优于边际归因方法高达20%。此外,SPEX成功地识别了强烈影响模型输出的关键特征和交互。对于我们的一个数据集HotpotQA,SPEX提供的交互与人类注释对齐。最后,我们使用我们的模型无关方法来生成解释,以展示封闭源LLM(GPT-4o mini)中的抽象推理和视觉语言模型中的组合推理。
🔬 方法详解
问题定义:现有基于SHAP的交互解释方法计算复杂度高,难以扩展到长文本输入,无法有效解释LLM在长上下文中的推理过程。这些方法的痛点在于计算所有可能的特征交互,导致计算量随输入长度呈指数增长。
核心思路:SPEX的核心思路是利用真实世界数据中特征交互的稀疏性。这意味着只有少数特征交互对模型的输出有显著影响。通过假设这种稀疏性,SPEX可以采用更高效的算法来识别这些重要的交互,而无需计算所有可能的交互。
技术框架:SPEX的整体框架包括以下几个主要阶段:1) 特征嵌入:将输入文本转换为特征向量表示。2) 交互重要性估计:使用稀疏傅里叶变换估计特征交互的重要性。3) 信道解码:应用信道解码算法来识别重要的交互。4) 解释生成:基于识别出的重要交互生成模型输出的解释。
关键创新:SPEX最重要的技术创新点在于利用稀疏傅里叶变换和信道解码算法来高效地识别重要的特征交互。与传统的计算所有交互的方法相比,SPEX的计算复杂度显著降低,使其能够扩展到长文本输入。SPEX是一种模型无关的方法,可以应用于各种LLM。
关键设计:SPEX的关键设计包括:1) 稀疏傅里叶变换:选择合适的傅里叶基来表示特征交互,并利用稀疏性假设加速计算。2) 信道解码算法:选择合适的信道解码算法来从傅里叶系数中恢复重要的交互。3) 正则化参数:调整正则化参数以控制稀疏性,平衡解释的准确性和简洁性。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
SPEX在长文本数据集上显著优于边际归因方法,在重建LLM输出方面提升高达20%。在HotpotQA数据集上,SPEX识别的交互与人类标注高度一致,验证了其解释的合理性。SPEX还成功应用于封闭源LLM(GPT-4o mini)和视觉语言模型,展示了其模型无关性和广泛适用性。
🎯 应用场景
SPEX可用于解释和调试LLM,尤其是在需要长上下文推理的任务中,例如文档摘要、问答系统和代码生成。通过识别关键的特征交互,SPEX可以帮助用户理解模型的决策过程,提高模型的可信度和可靠性。此外,SPEX还可以用于发现数据中的隐藏模式和关系,从而促进知识发现和创新。
📄 摘要(原文)
Large language models (LLMs) have revolutionized machine learning due to their ability to capture complex interactions between input features. Popular post-hoc explanation methods like SHAP provide marginal feature attributions, while their extensions to interaction importances only scale to small input lengths ($\approx 20$). We propose Spectral Explainer (SPEX), a model-agnostic interaction attribution algorithm that efficiently scales to large input lengths ($\approx 1000)$. SPEX exploits underlying natural sparsity among interactions -- common in real-world data -- and applies a sparse Fourier transform using a channel decoding algorithm to efficiently identify important interactions. We perform experiments across three difficult long-context datasets that require LLMs to utilize interactions between inputs to complete the task. For large inputs, SPEX outperforms marginal attribution methods by up to 20% in terms of faithfully reconstructing LLM outputs. Further, SPEX successfully identifies key features and interactions that strongly influence model output. For one of our datasets, HotpotQA, SPEX provides interactions that align with human annotations. Finally, we use our model-agnostic approach to generate explanations to demonstrate abstract reasoning in closed-source LLMs (GPT-4o mini) and compositional reasoning in vision-language models.