From Flexibility to Manipulation: The Slippery Slope of XAI Evaluation

📄 arXiv: 2412.05592v1 📥 PDF

作者: Kristoffer Wickstrøm, Marina Marie-Claire Höhne, Anna Hedström

分类: cs.AI

发布日期: 2024-12-07

备注: Published in ECCV 2024 Workshop on Explainable Computer Vision: Where are We and Where are We Going? Shorter non-archival version also appeared in the NeurIPS 2024 Interpretable AI workshop. Code is available at \url{https://github.com/Wickstrom/quantitative-xai-manipulation}


💡 一句话要点

揭示XAI评估中超参数选择的脆弱性,提出基于排序的鲁棒性提升策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 可解释人工智能 XAI评估 超参数优化 对抗攻击 鲁棒性 模型解释性 评估指标

📋 核心要点

  1. XAI评估缺乏ground truth,导致超参数选择具有主观性,为评估结果操纵提供了空间。
  2. 论文将超参数选择的灵活性视为攻击面,通过改变超参数来显著影响XAI评估结果。
  3. 提出基于超参数排序的缓解策略,旨在提高XAI评估结果对超参数选择的鲁棒性。

📝 摘要(中文)

可解释人工智能(XAI)中,定量评估面临缺乏ground truth解释标签的根本挑战。当评估方法存在大量需要用户指定的超参数时,这一挑战尤为突出,因为没有ground truth来确定最佳超参数选择。通常无法穷举搜索超参数,因此研究人员通常基于文献中的类似研究做出规范性选择,这为用户提供了很大的灵活性。本文展示了如何利用这种灵活性来操纵评估结果。我们将这种操纵定义为对评估的对抗攻击,其中超参数设置中看似无害的更改会显著影响评估结果。我们通过多个数据集证明了这种操纵的有效性,其中不同解释方法和模型之间的评估结果发生了巨大变化。最后,我们提出了一种基于超参数排序的缓解策略,旨在提供针对此类操纵的鲁棒性。这项工作强调了进行可靠XAI评估的难度,并强调了在XAI评估中采用整体和透明方法的重要性。

🔬 方法详解

问题定义:XAI评估依赖定量指标,但缺乏ground truth解释标签,使得超参数的选择成为难题。现有方法通常依赖于文献中的规范性选择,缺乏客观依据,导致评估结果容易受到超参数的影响。这种超参数选择的灵活性为恶意操纵评估结果提供了可能,使得评估结果的可信度降低。

核心思路:论文的核心思路是将超参数选择的灵活性视为一个攻击面,通过精心设计的超参数组合,使得评估结果朝着预期的方向偏移。通过证明这种攻击的存在,揭示了现有XAI评估方法的脆弱性。同时,提出一种基于超参数排序的防御机制,提高评估结果的鲁棒性。

技术框架:论文首先定义了针对XAI评估的对抗攻击,攻击者通过调整评估指标的超参数,使得特定解释方法在评估中表现更好或更差。然后,通过实验证明了这种攻击在多个数据集和解释方法上的有效性。最后,提出一种基于超参数排序的缓解策略,该策略通过对不同超参数设置下的评估结果进行排序,选择排名靠前的解释方法,从而降低超参数选择对评估结果的影响。

关键创新:论文最重要的创新点在于揭示了XAI评估中超参数选择的脆弱性,并将其形式化为一种对抗攻击。这种攻击方式能够有效地操纵评估结果,使得评估结果不再可靠。同时,提出的基于超参数排序的缓解策略,能够有效地提高评估结果的鲁棒性,降低超参数选择的影响。

关键设计:论文的关键设计在于超参数排序的缓解策略。具体来说,对于每个解释方法,计算其在不同超参数设置下的评估结果,并对这些结果进行排序。然后,选择排名靠前的解释方法作为最终的评估结果。这种方法能够有效地降低超参数选择对评估结果的影响,提高评估结果的鲁棒性。论文没有明确给出具体的损失函数或网络结构,而是侧重于评估流程的分析和改进。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过精心选择超参数,可以显著改变不同XAI方法在多个数据集上的评估结果。例如,某些解释方法在特定超参数设置下表现优异,而在其他设置下则表现较差。提出的基于超参数排序的缓解策略能够有效地提高评估结果的鲁棒性,降低超参数选择对评估结果的影响。

🎯 应用场景

该研究成果可应用于XAI算法的公平客观评估,帮助研究人员和开发者更准确地评估和比较不同XAI方法的性能。通过提高评估的鲁棒性,可以促进XAI技术的可靠应用,增强用户对AI系统的信任,并为AI系统的安全部署提供保障。

📄 摘要(原文)

The lack of ground truth explanation labels is a fundamental challenge for quantitative evaluation in explainable artificial intelligence (XAI). This challenge becomes especially problematic when evaluation methods have numerous hyperparameters that must be specified by the user, as there is no ground truth to determine an optimal hyperparameter selection. It is typically not feasible to do an exhaustive search of hyperparameters so researchers typically make a normative choice based on similar studies in the literature, which provides great flexibility for the user. In this work, we illustrate how this flexibility can be exploited to manipulate the evaluation outcome. We frame this manipulation as an adversarial attack on the evaluation where seemingly innocent changes in hyperparameter setting significantly influence the evaluation outcome. We demonstrate the effectiveness of our manipulation across several datasets with large changes in evaluation outcomes across several explanation methods and models. Lastly, we propose a mitigation strategy based on ranking across hyperparameters that aims to provide robustness towards such manipulation. This work highlights the difficulty of conducting reliable XAI evaluation and emphasizes the importance of a holistic and transparent approach to evaluation in XAI.