From Explainability to Interpretability: Interpretable Policies in Reinforcement Learning Via Model Explanation

作者: Peilang Li, Umer Siddique, Yongcan Cao

分类: cs.LG, cs.AI, eess.SY

发布日期: 2025-01-16

备注: Accepted to Deployable AI (DAI) Workshop at the Thirty-Ninth AAAI Conference on Artificial Intelligence (AAAI-25)

💡 一句话要点

提出基于Shapley值的模型解释方法，提升强化学习策略的可解释性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 可解释性 Shapley值 模型解释 策略解释 深度学习 人工智能

📋 核心要点

深度强化学习策略的黑盒特性阻碍了人们对决策过程的理解和信任，尤其在高风险场景下。
该论文提出一种模型无关的方法，利用Shapley值将复杂的深度RL策略转化为透明且可理解的表示。
实验结果表明，该方法在保留原始模型性能的同时，生成了更稳定且易于理解的策略。

📝 摘要（中文）

深度强化学习(RL)在复杂领域取得了显著成功，但深度神经网络策略固有的黑盒特性给理解和信任决策过程带来了重大挑战。现有的可解释RL方法虽然提供了局部见解，但未能提供对模型的全局理解，尤其是在高风险应用中。为了克服这一局限性，我们提出了一种新颖的、模型无关的方法，通过利用Shapley值将复杂的深度RL策略转换为透明的表示，从而弥合了可解释性和可理解性之间的差距。该方法有两个关键贡献：一种采用Shapley值进行策略解释的新方法，超越了局部解释；以及一个适用于离策略和在策略算法的通用框架。我们使用三种现有的深度RL算法评估了我们的方法，并在两个经典控制环境中验证了其性能。结果表明，我们的方法不仅保留了原始模型的性能，而且生成了更稳定的可解释策略。

🔬 方法详解

问题定义：深度强化学习策略通常难以解释，这限制了其在高风险领域的应用。现有的可解释强化学习方法主要集中在提供局部解释，例如突出显示对特定动作决策有重要影响的输入特征。然而，这些方法缺乏对策略的全局理解，无法揭示策略的整体行为模式和潜在的缺陷。因此，需要一种能够提供全局可解释性的方法，将复杂的深度强化学习策略转化为人类可以理解的形式。

核心思路：该论文的核心思路是利用Shapley值来量化每个输入特征对策略决策的贡献，从而将复杂的深度强化学习策略转化为可解释的表示。Shapley值是一种博弈论概念，可以公平地分配合作博弈中每个参与者的贡献。在该论文中，输入特征被视为参与者，策略的输出（例如，动作概率）被视为合作博弈的收益。通过计算每个输入特征的Shapley值，可以了解每个特征对策略决策的影响程度。

技术框架：该方法是一个模型无关的框架，可以应用于各种离策略和在策略的深度强化学习算法。其主要步骤包括：1) 使用深度强化学习算法训练一个策略；2) 收集策略在环境中的交互数据；3) 使用Shapley值估计每个输入特征对策略决策的贡献；4) 将Shapley值用于构建可解释的策略表示，例如，决策树或规则集。该框架可以提供对策略的全局理解，并帮助识别策略的潜在缺陷。

关键创新：该论文的关键创新在于将Shapley值应用于深度强化学习策略的全局解释。与现有的局部解释方法不同，该方法能够提供对策略整体行为模式的理解。此外，该方法是模型无关的，可以应用于各种深度强化学习算法。

关键设计：该论文的关键设计包括：1) 使用蒙特卡洛方法估计Shapley值；2) 使用决策树或规则集来表示可解释的策略；3) 设计了一种新的评估指标来衡量可解释策略的稳定性和性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在两个经典控制环境中，使用三种不同的深度强化学习算法，能够生成更稳定的可解释策略，同时保持原始模型的性能。具体而言，该方法在CartPole和MountainCar环境中，使用DQN、PPO和SAC算法，生成的策略在可解释性方面优于基线方法，并且在性能方面与原始模型相当。

🎯 应用场景

该研究成果可应用于各种需要高透明度和可信度的强化学习应用场景，例如自动驾驶、医疗诊断、金融交易等。通过提供可解释的策略，该方法可以帮助人们理解和信任强化学习系统的决策过程，从而提高系统的安全性和可靠性，并促进其在实际应用中的部署。

📄 摘要（原文）

Deep reinforcement learning (RL) has shown remarkable success in complex domains, however, the inherent black box nature of deep neural network policies raises significant challenges in understanding and trusting the decision-making processes. While existing explainable RL methods provide local insights, they fail to deliver a global understanding of the model, particularly in high-stakes applications. To overcome this limitation, we propose a novel model-agnostic approach that bridges the gap between explainability and interpretability by leveraging Shapley values to transform complex deep RL policies into transparent representations. The proposed approach offers two key contributions: a novel approach employing Shapley values to policy interpretation beyond local explanations and a general framework applicable to off-policy and on-policy algorithms. We evaluate our approach with three existing deep RL algorithms and validate its performance in two classic control environments. The results demonstrate that our approach not only preserves the original models' performance but also generates more stable interpretable policies.

From Explainability to Interpretability: Interpretable Policies in Reinforcement Learning Via Model Explanation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理