Interpretable Learning Dynamics in Unsupervised Reinforcement Learning

📄 arXiv: 2505.06279v1 📥 PDF

作者: Shashwat Pandey

分类: cs.LG, stat.ML

发布日期: 2025-05-06


💡 一句话要点

提出URL智能体可解释性框架,分析内驱动机对智能体行为和表征学习的影响

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无监督强化学习 可解释性 注意力机制 探索行为 表征学习

📋 核心要点

  1. 无监督强化学习智能体的内部运作机制复杂,难以理解其行为背后的驱动因素,阻碍了算法的改进和泛化能力的提升。
  2. 本文提出一种可解释性框架,通过分析智能体的注意力、探索行为和潜在表征,揭示内驱动机如何影响智能体的学习过程。
  3. 实验结果表明,好奇心驱动的智能体具有更广阔和动态的注意力,Transformer-RND在探索覆盖率和潜在表征结构化方面表现更优。

📝 摘要(中文)

本文提出了一个针对无监督强化学习(URL)智能体的可解释性框架,旨在理解内驱动机如何影响智能体的注意力、行为和表征学习。我们分析了五个智能体:DQN、RND、ICM、PPO以及一个Transformer-RND变体,这些智能体在程序生成的环境中进行训练。我们使用了Grad-CAM、逐层相关性传播(LRP)、探索指标和潜在空间聚类等方法。为了捕捉智能体如何随时间感知和适应,我们引入了两个指标:注意力多样性(衡量空间关注范围)和注意力变化率(量化时间上的注意力变化)。研究结果表明,好奇心驱动的智能体比外在激励的智能体表现出更广泛、更动态的注意力和探索行为。其中,TransformerRND结合了广泛的注意力、高探索覆盖率以及紧凑、结构化的潜在表征。我们的结果突出了架构归纳偏置和训练信号对智能体内部动态的影响。除了以奖励为中心的评估之外,所提出的框架还提供了诊断工具来探测RL智能体的感知和抽象能力,从而实现更可解释和更通用的行为。

🔬 方法详解

问题定义:无监督强化学习(URL)智能体的行为难以解释,缺乏对智能体内部状态和决策过程的理解。现有方法主要关注奖励最大化,忽略了智能体如何感知环境、探索未知区域以及学习抽象表征。这限制了URL智能体的泛化能力和可控性。

核心思路:通过分析智能体的注意力机制、探索行为和潜在表征,揭示内驱动机(例如好奇心)如何影响智能体的学习过程。核心在于将可解释性方法应用于URL智能体,从而理解其内部运作机制。

技术框架:该框架包含以下几个主要模块:1) 训练不同的URL智能体(DQN, RND, ICM, PPO, Transformer-RND)在程序生成的环境中;2) 使用Grad-CAM和LRP等方法可视化智能体的注意力;3) 引入注意力多样性和注意力变化率等指标量化智能体的注意力特征;4) 使用探索指标评估智能体的探索行为;5) 对智能体的潜在空间进行聚类分析。

关键创新:1) 提出了注意力多样性和注意力变化率这两个新指标,用于量化智能体的注意力特征;2) 将Transformer架构引入到RND算法中,并分析其对智能体行为的影响;3) 提供了一个完整的可解释性框架,用于分析URL智能体的内部运作机制。

关键设计:注意力多样性定义为注意力图的空间熵,用于衡量智能体关注区域的广度。注意力变化率定义为连续时间步注意力图之间的差异,用于衡量智能体注意力随时间变化的程度。Transformer-RND使用Transformer编码器来处理环境状态,并使用RND作为内在奖励信号。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,好奇心驱动的智能体比外在激励的智能体表现出更广泛、更动态的注意力。Transformer-RND在探索覆盖率和潜在表征结构化方面表现更优。注意力多样性和注意力变化率等指标能够有效区分不同智能体的行为模式。

🎯 应用场景

该研究成果可应用于机器人导航、游戏AI、自动驾驶等领域,帮助开发者设计更智能、更可控的强化学习智能体。通过理解智能体的内部运作机制,可以提高其泛化能力和安全性,并促进人机协作。

📄 摘要(原文)

We present an interpretability framework for unsupervised reinforcement learning (URL) agents, aimed at understanding how intrinsic motivation shapes attention, behavior, and representation learning. We analyze five agents DQN, RND, ICM, PPO, and a Transformer-RND variant trained on procedurally generated environments, using Grad-CAM, Layer-wise Relevance Propagation (LRP), exploration metrics, and latent space clustering. To capture how agents perceive and adapt over time, we introduce two metrics: attention diversity, which measures the spatial breadth of focus, and attention change rate, which quantifies temporal shifts in attention. Our findings show that curiosity-driven agents display broader, more dynamic attention and exploratory behavior than their extrinsically motivated counterparts. Among them, TransformerRND combines wide attention, high exploration coverage, and compact, structured latent representations. Our results highlight the influence of architectural inductive biases and training signals on internal agent dynamics. Beyond reward-centric evaluation, the proposed framework offers diagnostic tools to probe perception and abstraction in RL agents, enabling more interpretable and generalizable behavior.