Neural DNF-MT: A Neuro-symbolic Approach for Learning Interpretable and Editable Policies

📄 arXiv: 2501.03888v4 📥 PDF

作者: Kexin Gu Baugh, Luke Dickens, Alessandra Russo

分类: cs.AI, cs.LG, cs.LO

发布日期: 2025-01-07 (更新: 2025-04-23)

备注: AAMAS 2025 (with Appendix)


💡 一句话要点

提出神经DNF-MT模型,用于学习可解释和可编辑的强化学习策略。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 神经符号学习 强化学习 可解释性 逻辑程序 策略学习

📋 核心要点

  1. 深度强化学习策略难以解释,阻碍了人工干预和策略优化。
  2. 神经DNF-MT模型将神经网络与逻辑程序结合,实现可微训练和策略的符号化表示。
  3. 实验表明,该模型在性能上与黑盒方法相当,同时提供了可解释和可编辑的策略。

📝 摘要(中文)

深度强化学习虽然有效,但其黑盒特性阻碍了策略的直接解释。为了解决这个问题,我们提出了一种神经符号方法,称为神经DNF-MT,用于端到端策略学习。神经DNF-MT模型的可微性使得能够使用深度Actor-Critic算法进行训练。同时,其架构被设计成可以将训练好的模型直接转换为可解释的策略,这些策略可以表示为标准的(二值或概率)逻辑程序。此外,可以包含额外的层来从复杂的观察中提取抽象特征,作为一种谓词发明。逻辑表示具有高度的可解释性,并且我们展示了如何编辑确定性策略的二值表示并将其合并回神经模型中,从而促进人工干预和对学习策略的适应。我们在需要从各种形式的观察中学习确定性或随机行为的一系列任务中评估了我们的方法。实验结果表明,我们的神经DNF-MT模型在提供可解释策略的同时,性能与竞争的黑盒方法相当。

🔬 方法详解

问题定义:深度强化学习的策略通常是黑盒模型,难以理解其决策过程。这使得人工难以干预和调试策略,也限制了策略的泛化能力。现有方法缺乏在性能和可解释性之间的平衡。

核心思路:论文的核心思路是将强化学习策略表示为可解释的逻辑程序,同时利用神经网络学习这些逻辑程序的参数。通过将神经网络与逻辑推理相结合,实现可微的端到端训练,并获得可解释的策略表示。

技术框架:神经DNF-MT模型包含以下几个主要模块:1) 特征提取层:使用神经网络从原始观察中提取抽象特征。2) DNF层:将提取的特征转换为析取范式(DNF)的逻辑表达式。3) MT层:将DNF表达式转换为可执行的策略。整个框架是可微的,可以使用Actor-Critic等强化学习算法进行训练。

关键创新:该方法最重要的创新点在于将神经网络与逻辑程序相结合,实现可解释的强化学习策略。与传统的黑盒方法相比,该方法能够提供可解释的策略表示,方便人工干预和调试。与传统的符号方法相比,该方法能够利用神经网络学习复杂的特征表示,提高策略的性能。

关键设计:关键设计包括:1) 使用神经网络提取抽象特征,作为谓词发明的一种形式。2) 使用DNF表示策略,保证了策略的可解释性。3) 设计可微的DNF-MT层,使得整个模型可以进行端到端训练。4) 可以将二值逻辑表示的确定性策略进行编辑,并重新融入神经网络中,实现策略的人工干预和调整。损失函数采用标准的Actor-Critic损失函数,网络结构可以根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,神经DNF-MT模型在多个任务中取得了与黑盒方法相当的性能,同时提供了可解释的策略。例如,在某个任务中,神经DNF-MT模型与DQN的性能差距小于5%,但提供了可解释的逻辑规则,方便用户理解和修改策略。

🎯 应用场景

该研究成果可应用于需要可解释性和可控性的强化学习任务中,例如机器人控制、自动驾驶、医疗诊断等领域。通过提供可解释的策略,可以提高用户对智能系统的信任度,并方便人工干预和优化策略。未来,该方法可以扩展到更复杂的任务和更丰富的逻辑表示形式。

📄 摘要(原文)

Although deep reinforcement learning has been shown to be effective, the model's black-box nature presents barriers to direct policy interpretation. To address this problem, we propose a neuro-symbolic approach called neural DNF-MT for end-to-end policy learning. The differentiable nature of the neural DNF-MT model enables the use of deep actor-critic algorithms for training. At the same time, its architecture is designed so that trained models can be directly translated into interpretable policies expressed as standard (bivalent or probabilistic) logic programs. Moreover, additional layers can be included to extract abstract features from complex observations, acting as a form of predicate invention. The logic representations are highly interpretable, and we show how the bivalent representations of deterministic policies can be edited and incorporated back into a neural model, facilitating manual intervention and adaptation of learned policies. We evaluate our approach on a range of tasks requiring learning deterministic or stochastic behaviours from various forms of observations. Our empirical results show that our neural DNF-MT model performs at the level of competing black-box methods whilst providing interpretable policies.