Demystifying Reinforcement Learning in Production Scheduling via Explainable AI

📄 arXiv: 2408.09841v2 📥 PDF

作者: Daniel Fischer, Hannah M. Hüsener, Felix Grumbach, Lukas Vollenkemper, Arthur Müller, Pascal Reusch

分类: cs.AI

发布日期: 2024-08-19 (更新: 2024-08-30)


💡 一句话要点

提出基于假设检验的工作流,提升DRL生产调度决策的可解释性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 可解释AI 生产调度 SHAP Captum

📋 核心要点

  1. DRL在生产调度中应用广泛,但其决策过程的黑盒特性阻碍了实际应用。
  2. 论文提出基于假设检验的xAI工作流,结合领域知识验证DRL智能体的决策逻辑。
  3. 该方法通过定制假设,将智能体的决策解释传达给不同背景的受众。

📝 摘要(中文)

深度强化学习(DRL)常被用于解决调度问题。尽管DRL智能体能够在短时间内提供可行的结果,但其推理过程仍然不透明。我们进行了一项案例研究,系统地应用了两种可解释AI(xAI)框架,即SHAP (DeepSHAP)和Captum (Input x Gradient),来描述一个专门用于流水线生产的DRL智能体做出调度决策背后的原因。我们发现,xAI文献中的方法缺乏可证伪性和一致的术语,没有充分考虑领域知识、目标受众或真实场景,并且通常提供简单的输入-输出解释,而不是因果解释。为了解决这个问题,我们引入了一个基于假设的工作流程。这种方法使我们能够检查解释是否与领域知识相符,并与智能体的奖励假设相匹配。此外,我们通过针对目标受众定制假设来应对将这些见解传达给第三方的问题,这些假设可以在验证后作为智能体行为的解释。我们提出的工作流程强调对解释的重复验证,并且可能适用于各种基于DRL的调度用例。

🔬 方法详解

问题定义:DRL在生产调度领域取得了显著成果,但其决策过程难以理解,缺乏透明度。现有的可解释AI (xAI) 方法在应用于DRL调度时,存在缺乏可证伪性、术语不一致、忽略领域知识和目标受众等问题,导致解释结果难以验证和应用。这些方法通常只提供输入-输出的简单解释,而无法揭示智能体决策的因果关系。

核心思路:论文的核心思路是引入一个基于假设检验的xAI工作流,将领域知识融入到DRL智能体的解释过程中。通过提出关于智能体行为的假设,并利用xAI方法生成的解释进行验证,从而提高解释的可信度和实用性。此外,针对不同的目标受众定制假设,使得解释更易于理解和接受。

技术框架:该工作流包含以下几个主要阶段:1) 选择合适的DRL智能体和调度环境;2) 应用现有的xAI方法(如SHAP和Captum)生成初步解释;3) 基于领域知识和智能体的奖励假设,提出关于智能体行为的假设;4) 利用xAI方法生成的解释验证这些假设;5) 针对不同的目标受众定制假设,并进行沟通和验证。整个过程强调解释的重复验证和迭代改进。

关键创新:该论文的关键创新在于提出了一个基于假设检验的xAI工作流,将领域知识和目标受众的需求纳入到DRL智能体的解释过程中。与传统的xAI方法相比,该方法更加注重解释的可证伪性和实用性,能够提供更可靠和易于理解的解释。此外,针对不同受众定制假设的设计,有助于将DRL智能体的决策逻辑传达给不同背景的人员。

关键设计:论文中使用了两种常用的xAI方法:SHAP (DeepSHAP) 和 Captum (Input x Gradient)。DeepSHAP是SHAP算法在深度学习模型上的应用,通过计算每个输入特征对模型输出的贡献来解释模型的决策。Input x Gradient则通过计算输入特征的梯度与输入值的乘积来衡量特征的重要性。此外,论文还强调了领域知识的重要性,并提出了针对不同目标受众定制假设的设计原则。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过案例研究,系统地应用了SHAP和Captum两种xAI框架,并发现现有xAI方法在DRL调度领域存在不足。提出的基于假设检验的工作流能够有效提高DRL智能体决策的可解释性,并能够针对不同受众定制解释。该方法强调解释的重复验证,提高了结果的可信度。

🎯 应用场景

该研究成果可应用于各种基于DRL的生产调度场景,例如柔性制造系统、供应链管理和资源分配等。通过提高DRL智能体的可解释性,可以增强用户对智能体的信任,促进DRL技术在实际生产中的应用。此外,该方法还可以用于诊断智能体的问题,并进行改进。

📄 摘要(原文)

Deep Reinforcement Learning (DRL) is a frequently employed technique to solve scheduling problems. Although DRL agents ace at delivering viable results in short computing times, their reasoning remains opaque. We conduct a case study where we systematically apply two explainable AI (xAI) frameworks, namely SHAP (DeepSHAP) and Captum (Input x Gradient), to describe the reasoning behind scheduling decisions of a specialized DRL agent in a flow production. We find that methods in the xAI literature lack falsifiability and consistent terminology, do not adequately consider domain-knowledge, the target audience or real-world scenarios, and typically provide simple input-output explanations rather than causal interpretations. To resolve this issue, we introduce a hypotheses-based workflow. This approach enables us to inspect whether explanations align with domain knowledge and match the reward hypotheses of the agent. We furthermore tackle the challenge of communicating these insights to third parties by tailoring hypotheses to the target audience, which can serve as interpretations of the agent's behavior after verification. Our proposed workflow emphasizes the repeated verification of explanations and may be applicable to various DRL-based scheduling use cases.