On the Definition and Detection of Cherry-Picking in Counterfactual Explanations

📄 arXiv: 2601.04977v1 📥 PDF

作者: James Hinns, Sofie Goethals, Stephan Van der Veeken, Theodoros Evgeniou, David Martens

分类: cs.LG, cs.AI

发布日期: 2026-01-08


💡 一句话要点

定义并研究了反事实解释中的“挑选”现象,揭示了检测此类操纵的局限性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 反事实解释 可解释性AI 挑选 模型审计 效用函数

📋 核心要点

  1. 反事实解释易被操纵,解释提供者可能挑选有利的解释,掩盖不利信息。
  2. 论文形式化定义了反事实解释中的“挑选”现象,并研究了检测此类操纵的难度。
  3. 实验表明,即使有完全访问权限,挑选的解释也难以与正常解释区分,现有指标难以有效检测。

📝 摘要(中文)

反事实解释被广泛用于沟通输入需要如何改变才能使模型改变其预测。对于单个实例,可能存在许多有效的反事实解释,这使得解释提供者可以选择更符合其叙述的解释,突出有利的行为并隐瞒揭示问题行为的例子。本文正式定义了反事实解释中的“挑选”现象,其定义基于可接受的解释空间(由生成过程指定)和效用函数。然后,研究了外部审计员在多大程度上可以检测到这种操纵。考虑到对解释过程的三个级别的访问:完全程序访问、部分程序访问和仅解释访问,结果表明在实践中检测非常有限。即使具有完全程序访问权限,挑选的解释仍然难以与非挑选的解释区分开来,因为有效反事实的多样性和解释规范的灵活性提供了足够的自由度来掩盖有意的选择。经验表明,这种可变性通常超过挑选对标准反事实质量指标(如接近度、合理性和稀疏性)的影响,使得挑选的解释在统计上与基线解释无法区分。因此,建议保障措施应优先考虑可重复性、标准化和程序约束,而不是事后检测,并为算法开发者、解释提供者和审计员提供建议。

🔬 方法详解

问题定义:论文旨在解决反事实解释中存在的“挑选”(cherry-picking)问题。具体来说,当存在多个有效的反事实解释时,解释提供者可能会有选择性地呈现某些解释,以达到特定的目的,例如掩盖模型的不良行为或突出模型的优点。现有方法缺乏对这种“挑选”行为的有效检测机制,使得用户难以判断解释的真实性和可靠性。

核心思路:论文的核心思路是将“挑选”行为形式化定义为一个优化问题,其中解释提供者试图最大化其效用函数,同时满足一定的约束条件。通过分析解释生成过程和效用函数,研究者可以评估外部审计员检测“挑选”行为的能力。论文认为,由于反事实解释的多样性和解释规范的灵活性,即使审计员拥有完全的程序访问权限,也很难区分挑选的解释和非挑选的解释。

技术框架:论文的技术框架主要包括以下几个部分:1) 定义可接受的解释空间,该空间由解释生成过程决定;2) 定义效用函数,用于衡量解释提供者的偏好;3) 分析在不同访问级别下(完全程序访问、部分程序访问、仅解释访问)审计员检测“挑选”行为的能力;4) 通过实验验证理论分析的结论。

关键创新:论文最重要的技术创新在于对反事实解释中的“挑选”行为进行了形式化定义,并从理论上分析了检测此类行为的难度。此外,论文还提出了针对算法开发者、解释提供者和审计员的建议,旨在提高反事实解释的可信度和可靠性。

关键设计:论文的关键设计包括:1) 使用效用函数来模拟解释提供者的偏好,该函数可以根据不同的应用场景进行定制;2) 考虑了不同级别的访问权限,以模拟实际应用中审计员可能面临的不同情况;3) 使用标准的反事实质量指标(如接近度、合理性和稀疏性)来评估挑选行为对解释质量的影响。

📊 实验亮点

实验结果表明,即使在完全程序访问的情况下,挑选的解释在统计上与基线解释无法区分。标准的反事实质量指标(如接近度、合理性和稀疏性)对挑选行为的敏感性较低,难以有效检测“挑选”。这表明,仅仅依靠事后检测难以有效防范“挑选”行为,需要从解释生成过程的源头进行控制。

🎯 应用场景

该研究成果可应用于对机器学习模型解释的审计和监管,尤其是在金融、医疗等高风险领域。通过提高反事实解释的可信度和可靠性,可以增强用户对模型的信任,并促进负责任的AI发展。未来的研究可以探索更有效的“挑选”检测方法,以及设计更鲁棒的反事实解释生成算法。

📄 摘要(原文)

Counterfactual explanations are widely used to communicate how inputs must change for a model to alter its prediction. For a single instance, many valid counterfactuals can exist, which leaves open the possibility for an explanation provider to cherry-pick explanations that better suit a narrative of their choice, highlighting favourable behaviour and withholding examples that reveal problematic behaviour. We formally define cherry-picking for counterfactual explanations in terms of an admissible explanation space, specified by the generation procedure, and a utility function. We then study to what extent an external auditor can detect such manipulation. Considering three levels of access to the explanation process: full procedural access, partial procedural access, and explanation-only access, we show that detection is extremely limited in practice. Even with full procedural access, cherry-picked explanations can remain difficult to distinguish from non cherry-picked explanations, because the multiplicity of valid counterfactuals and flexibility in the explanation specification provide sufficient degrees of freedom to mask deliberate selection. Empirically, we demonstrate that this variability often exceeds the effect of cherry-picking on standard counterfactual quality metrics such as proximity, plausibility, and sparsity, making cherry-picked explanations statistically indistinguishable from baseline explanations. We argue that safeguards should therefore prioritise reproducibility, standardisation, and procedural constraints over post-hoc detection, and we provide recommendations for algorithm developers, explanation providers, and auditors.