Learning Nonlinear Causal Reductions to Explain Reinforcement Learning Policies

📄 arXiv: 2507.14901v1 📥 PDF

作者: Armin Kekić, Jan Schneider, Dieter Büchler, Bernhard Schölkopf, Michel Besserve

分类: stat.ML, cs.AI, cs.LG

发布日期: 2025-07-20


💡 一句话要点

提出非线性因果归约方法,解释强化学习策略的成败原因

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 因果推断 策略解释 非线性模型 因果归约

📋 核心要点

  1. 强化学习策略的成功或失败难以解释,因为智能体与环境的交互过程复杂且维度高。
  2. 论文提出非线性因果模型归约框架,通过扰动策略动作并观察对奖励的影响,学习简化的因果模型。
  3. 实验表明该方法能有效揭示RL策略中的行为模式、偏差和失败模式,并在倒立摆和机器人乒乓球等任务上验证。

📝 摘要(中文)

由于智能体-环境交互的复杂性和高维度,解释强化学习(RL)策略的成败原因极具挑战。本文从因果角度出发,将状态、动作和奖励视为底层因果模型中的变量,通过对策略执行期间的动作引入随机扰动,观察其对累积奖励的影响,从而学习一个简化的、高层次的因果模型来解释这些关系。为此,我们开发了一个非线性因果模型归约框架,确保近似干预一致性,即简化的模型对干预的响应方式与原始复杂系统类似。我们证明,对于一类非线性因果模型,存在一个实现精确干预一致性的唯一解,确保学习到的解释反映有意义的因果模式。在合成因果模型和实际RL任务(包括倒立摆控制和机器人乒乓球)上的实验表明,我们的方法可以揭示已训练RL策略中的重要行为模式、偏差和失败模式。

🔬 方法详解

问题定义:强化学习策略的黑盒特性使得理解其行为模式和失败原因非常困难。现有方法难以处理智能体与环境之间复杂的高维交互,缺乏对策略行为的因果解释,难以发现潜在的偏差和缺陷。

核心思路:论文的核心在于通过学习一个简化的、高层次的因果模型来解释强化学习策略的行为。该模型通过观察对策略动作的扰动如何影响累积奖励来推断因果关系。核心思想是,如果对某个动作的扰动显著影响了最终奖励,那么该动作很可能在策略中起着关键作用。

技术框架:该方法包含以下几个主要阶段:1) 对已训练的强化学习策略进行采样,记录状态、动作和奖励序列。2) 在策略执行期间,对动作进行随机扰动。3) 观察扰动对累积奖励的影响。4) 使用非线性因果模型归约框架,学习一个简化的、高层次的因果模型,该模型将状态、动作和奖励之间的关系表示为因果图。5) 验证学习到的因果模型是否具有近似干预一致性,即对简化模型的干预是否与对原始复杂系统的干预产生类似的结果。

关键创新:该方法的主要创新在于提出了一个非线性因果模型归约框架,该框架能够学习具有近似干预一致性的简化因果模型。与传统的因果发现方法不同,该框架专门设计用于处理强化学习策略的复杂性和非线性。此外,该方法还证明了对于一类非线性因果模型,存在一个实现精确干预一致性的唯一解。

关键设计:该方法使用高斯过程回归来学习状态、动作和奖励之间的非线性关系。损失函数包括两部分:一部分用于拟合观测到的数据,另一部分用于确保干预一致性。干预一致性通过最小化对原始系统和简化模型进行干预后奖励分布之间的差异来实现。具体来说,使用KL散度来衡量奖励分布之间的差异。扰动的大小和频率是需要调整的关键参数,需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在倒立摆控制和机器人乒乓球等实际RL任务中,该方法成功揭示了已训练策略中的重要行为模式、偏差和失败模式。例如,在倒立摆任务中,该方法能够识别出策略过度依赖于某些状态变量,导致其在特定情况下容易失效。在机器人乒乓球任务中,该方法能够发现策略存在对对手行为的偏差,导致其难以适应不同的对手。

🎯 应用场景

该研究成果可应用于强化学习策略的调试、优化和安全验证。通过理解策略的行为模式和潜在缺陷,可以改进策略的设计,提高其鲁棒性和可靠性。此外,该方法还可以用于解释智能体的决策过程,增强人机协作的信任度,并促进强化学习技术在安全关键领域的应用,例如自动驾驶和医疗诊断。

📄 摘要(原文)

Why do reinforcement learning (RL) policies fail or succeed? This is a challenging question due to the complex, high-dimensional nature of agent-environment interactions. In this work, we take a causal perspective on explaining the behavior of RL policies by viewing the states, actions, and rewards as variables in a low-level causal model. We introduce random perturbations to policy actions during execution and observe their effects on the cumulative reward, learning a simplified high-level causal model that explains these relationships. To this end, we develop a nonlinear Causal Model Reduction framework that ensures approximate interventional consistency, meaning the simplified high-level model responds to interventions in a similar way as the original complex system. We prove that for a class of nonlinear causal models, there exists a unique solution that achieves exact interventional consistency, ensuring learned explanations reflect meaningful causal patterns. Experiments on both synthetic causal models and practical RL tasks-including pendulum control and robot table tennis-demonstrate that our approach can uncover important behavioral patterns, biases, and failure modes in trained RL policies.