No $D_{\text{train}}$: Model-Agnostic Counterfactual Explanations Using Reinforcement Learning

作者: Xiangyu Sun, Raquel Aoki, Kevin H. Wilson

分类: cs.LG, stat.ME

发布日期: 2024-05-28 (更新: 2025-07-10)

备注: Published in Transactions on Machine Learning Research (TMLR 2025)

💡 一句话要点

提出NTD-CFE，一种无需训练数据的模型无关强化学习反事实解释方法，适用于静态和时序数据。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 反事实解释 强化学习 模型无关 时间序列 可解释性

📋 核心要点

现有反事实解释方法通常需要访问训练数据，且难以处理多元时间序列数据，限制了其应用。
NTD-CFE利用强化学习，在无需训练数据的情况下，将高维时间序列搜索空间降维，生成可行的反事实解释。
实验表明，NTD-CFE在多个数据集上，能以更小的改动幅度找到有效的反事实解释，提升了解释的可操作性。

📝 摘要（中文）

机器学习方法在过去十年中取得了显著进展，但其在现实世界高影响力领域的实际应用受到其不透明性的阻碍。当机器学习方法负责做出关键决策时，利益相关者通常需要了解如何改变这些决策。反事实解释（CFE）作为一种解决方案应运而生，它提供了对不透明机器学习模型的解释，并提供了一种从一个决策过渡到另一个决策的途径。然而，大多数现有的CFE方法需要访问模型的训练数据集，很少有方法可以处理多元时间序列，并且没有模型无关的CFE方法可以在没有训练数据集的情况下处理多元时间序列。这些限制在许多情况下可能是巨大的。在本文中，我们提出NTD-CFE，一种基于强化学习（RL）的新型模型无关CFE方法，用于在训练数据集不可用时生成CFE。NTD-CFE适用于具有连续和离散特征的静态和多元时间序列数据集。NTD-CFE将CFE搜索空间从多元时间序列域降低到较低维空间，并使用RL解决该问题。用户可以灵活地指定不可操作、不可变和首选特征，以及因果约束。我们在多个数据集上针对四个基线展示了NTD-CFE的性能，发现尽管无法访问训练数据集，NTD-CFE找到的CFE对输入时间序列的更改显着更少且幅度显着更小。这些属性使CFE更具可操作性，因为改变结果所需的更改幅度大大减小。代码可在补充材料中找到。

🔬 方法详解

问题定义：现有反事实解释（CFE）方法的痛点在于，它们通常需要访问模型的训练数据集才能生成解释。此外，许多方法无法处理多元时间序列数据，这限制了它们在实际应用中的适用性。尤其是在训练数据不可用或难以获取的情况下，现有的模型无关CFE方法无法有效处理多元时间序列数据。

核心思路：NTD-CFE的核心思路是利用强化学习（RL）在没有训练数据的情况下生成反事实解释。通过将CFE的搜索过程建模为一个RL问题，智能体学习如何对输入数据进行最小的修改，从而改变模型的预测结果。这种方法避免了对训练数据的依赖，并能够处理静态和时间序列数据。

技术框架：NTD-CFE的整体框架包括以下几个主要模块：1) 环境：模拟模型预测的环境，接收智能体的动作（对输入数据的修改），并返回奖励（基于预测结果和修改幅度）。2) 智能体：使用RL算法（例如，Q-learning或策略梯度方法）学习最优策略，即如何修改输入数据以获得期望的预测结果。3) 降维模块：将高维时间序列数据映射到低维空间，以减少搜索空间并加速学习过程。4) 约束模块：允许用户指定不可操作的特征、因果约束等，以确保生成的CFE是可行的和符合实际情况的。

关键创新：NTD-CFE最重要的技术创新点在于其模型无关性和无需训练数据的特性。与现有方法相比，NTD-CFE不需要访问模型的训练数据，这使得它可以在更广泛的场景中使用。此外，NTD-CFE能够处理多元时间序列数据，这进一步扩展了其适用范围。通过强化学习，NTD-CFE能够找到对输入数据进行最小修改的反事实解释，从而提高了解释的可操作性。

关键设计：NTD-CFE的关键设计包括：1) 奖励函数：奖励函数的设计至关重要，它需要平衡预测结果的改变和修改幅度的大小。通常，奖励函数会包含两部分：一部分奖励期望的预测结果，另一部分惩罚过大的修改幅度。2) 状态表示：状态表示需要能够捕捉输入数据的关键特征，以便智能体能够有效地学习。可以使用降维技术（例如，PCA或自编码器）来提取状态表示。3) 动作空间：动作空间定义了智能体可以对输入数据进行的修改。动作空间的设计需要考虑到实际应用中的约束，例如，某些特征可能是不可修改的。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在多个数据集上，NTD-CFE在没有访问训练数据的情况下，能够找到比现有基线方法更有效、更可操作的反事实解释。具体而言，NTD-CFE生成的CFE对输入时间序列的修改幅度显著更小，修改的特征数量也更少，从而提高了CFE的可行性和可解释性。这些结果验证了NTD-CFE在模型无关反事实解释方面的有效性。

🎯 应用场景

NTD-CFE可应用于金融风控、医疗诊断、工业控制等领域。例如，在金融风控中，可以解释为何用户的贷款申请被拒绝，并提供可行的修改建议。在医疗诊断中，可以解释为何患者被诊断为某种疾病，并提供改变诊断结果的建议。该方法无需访问敏感的训练数据，保护了数据隐私，具有重要的实际应用价值和推广前景。

📄 摘要（原文）

Machine learning (ML) methods have experienced significant growth in the past decade, yet their practical application in high-impact real-world domains has been hindered by their opacity. When ML methods are responsible for making critical decisions, stakeholders often require insights into how to alter these decisions. Counterfactual explanations (CFEs) have emerged as a solution, offering interpretations of opaque ML models and providing a pathway to transition from one decision to another. However, most existing CFE methods require access to the model's training dataset, few methods can handle multivariate time-series, and none of model-agnostic CFE methods can handle multivariate time-series without training datasets. These limitations can be formidable in many scenarios. In this paper, we present NTD-CFE, a novel model-agnostic CFE method based on reinforcement learning (RL) that generates CFEs when training datasets are unavailable. NTD-CFE is suitable for both static and multivariate time-series datasets with continuous and discrete features. NTD-CFE reduces the CFE search space from a multivariate time-series domain to a lower dimensional space and addresses the problem using RL. Users have the flexibility to specify non-actionable, immutable, and preferred features, as well as causal constraints. We demonstrate the performance of NTD-CFE against four baselines on several datasets and find that, despite not having access to a training dataset, NTD-CFE finds CFEs that make significantly fewer and significantly smaller changes to the input time-series. These properties make CFEs more actionable, as the magnitude of change required to alter an outcome is vastly reduced. The code is available in the supplementary material.

No $D_{\text{train}}$: Model-Agnostic Counterfactual Explanations Using Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理