Inducing, Detecting and Characterising Neural Modules: A Pipeline for Functional Interpretability in Reinforcement Learning

📄 arXiv: 2501.17077v2 📥 PDF

作者: Anna Soligo, Pietro Ferraro, David Boyle

分类: cs.LG, cs.AI

发布日期: 2025-01-28 (更新: 2025-06-02)


💡 一句话要点

提出一种基于功能模块的强化学习可解释性分析流程

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 可解释性 功能模块 Louvain算法 相关性对齐

📋 核心要点

  1. 现有强化学习可解释性方法难以扩展到大型模型,阻碍了复杂决策场景的应用。
  2. 通过鼓励网络权重的稀疏性和局部性,诱导策略网络中功能模块的涌现。
  3. 扩展Louvain算法,使用相关性对齐指标,有效检测神经网络中的功能模块。

📝 摘要(中文)

可解释性对于确保强化学习系统与人类价值观对齐至关重要。然而,在复杂的决策领域实现可解释性仍然具有挑战性。现有方法通常试图在基本模型单元(如神经元或决策节点)层面进行可解释性分析,这种方法难以扩展到大型模型。本文提出了一种在功能模块层面进行可解释性分析的方法。研究表明,鼓励网络权重的稀疏性和局部性会导致强化学习策略网络中功能模块的出现。为了检测这些模块,开发了一种扩展的Louvain算法,该算法使用一种新颖的“相关性对齐”指标,以克服标准网络分析技术应用于神经网络架构时的局限性。将这些方法应用于2D和3D MiniGrid环境,揭示了不同轴向导航模块的一致性出现,并进一步证明了可以通过在推理之前直接干预网络权重来验证这些功能。

🔬 方法详解

问题定义:现有强化学习模型的可解释性研究主要集中在神经元或决策节点等底层单元,这种方法在大型复杂模型中面临着严重的扩展性问题。难以理解整个策略网络的功能和决策过程,阻碍了强化学习在安全关键领域的应用。因此,需要一种能够在更高层次上理解强化学习模型的方法。

核心思路:论文的核心思路是将可解释性分析的粒度提升到功能模块层面。通过诱导网络权重的稀疏性和局部性,使得网络能够自发地形成具有特定功能的模块。然后,通过检测和分析这些模块,可以更好地理解策略网络的整体功能和决策过程。这种方法可以有效地降低分析的复杂度,并提高可解释性的效果。

技术框架:该方法主要包含三个阶段:1) 模块诱导:通过在训练过程中引入稀疏性和局部性约束,鼓励网络形成功能模块。2) 模块检测:使用扩展的Louvain算法,基于相关性对齐指标,检测网络中的功能模块。3) 模块验证:通过直接干预网络权重,验证检测到的模块的功能。整体流程是从策略网络中诱导出功能模块,然后检测并验证这些模块,从而实现对强化学习模型的可解释性分析。

关键创新:该论文的关键创新在于:1) 提出了一种基于功能模块的强化学习可解释性分析框架。2) 开发了一种扩展的Louvain算法,该算法使用相关性对齐指标,能够有效地检测神经网络中的功能模块。3) 通过实验验证了该方法在MiniGrid环境中的有效性,并展示了如何通过干预网络权重来验证模块的功能。

关键设计:在模块诱导阶段,使用了L1正则化来鼓励权重的稀疏性,并使用了一种局部性损失函数来鼓励权重连接的局部性。在模块检测阶段,扩展的Louvain算法使用了一种新的相关性对齐指标,该指标考虑了神经元之间的相关性和连接权重。在模块验证阶段,通过直接修改或删除特定模块的权重,观察策略的变化,从而验证模块的功能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在2D和3D MiniGrid环境中,实验结果表明该方法能够有效地诱导和检测功能模块。例如,在导航任务中,网络能够自发地形成分别负责不同轴向导航的模块。通过干预这些模块的权重,可以验证它们的功能,并观察到策略的相应变化。这些结果表明该方法具有很强的可解释性和实用性。

🎯 应用场景

该研究成果可应用于各种强化学习应用场景,尤其是在安全关键领域,如自动驾驶、医疗诊断和金融交易。通过提高强化学习模型的可解释性,可以增强人们对模型的信任,并促进其在实际应用中的部署。此外,该方法还可以用于发现新的策略和算法,并提高强化学习模型的性能。

📄 摘要(原文)

Interpretability is crucial for ensuring RL systems align with human values. However, it remains challenging to achieve in complex decision making domains. Existing methods frequently attempt interpretability at the level of fundamental model units, such as neurons or decision nodes: an approach which scales poorly to large models. Here, we instead propose an approach to interpretability at the level of functional modularity. We show how encouraging sparsity and locality in network weights leads to the emergence of functional modules in RL policy networks. To detect these modules, we develop an extended Louvain algorithm which uses a novel `correlation alignment' metric to overcome the limitations of standard network analysis techniques when applied to neural network architectures. Applying these methods to 2D and 3D MiniGrid environments reveals the consistent emergence of distinct navigational modules for different axes, and we further demonstrate how these functions can be validated through direct interventions on network weights prior to inference.