"So, Tell Me About Your Policy...": Distillation of interpretable policies from Deep Reinforcement Learning agents
作者: Giovanni Dispoto, Paolo Bonetti, Marcello Restelli
分类: cs.LG
发布日期: 2025-07-10 (更新: 2025-07-29)
备注: Accepted at ECAI 2025
💡 一句话要点
提出基于优势函数蒸馏的可解释强化学习策略,提升金融交易等领域应用。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 可解释性 知识蒸馏 优势函数 策略提取
📋 核心要点
- 深度强化学习在复杂任务中表现出色,但其策略缺乏可解释性,限制了在关键领域的应用。
- 该论文提出一种基于优势函数蒸馏的方法,从深度强化学习智能体中提取可解释的策略。
- 实验表明,该方法能够在经典控制和金融交易环境中提取有意义的策略,并保持较好的性能。
📝 摘要(中文)
近年来,强化学习(RL)领域受益于深度神经网络的引入,涌现出大量深度强化学习(DRL)方法。这些技术在Atari游戏、围棋以及包括金融交易在内的现实世界应用中展现了强大的能力。然而,缺乏可解释性是一个显著的挑战,尤其是在试图理解学习到的潜在模式、状态特征的相对重要性以及它们如何被整合以生成策略的输出时。因此,在关键任务和现实环境中,通常倾向于部署更简单、更易于解释的算法,即使以牺牲性能为代价。本文提出了一种新的算法,该算法具有理论保证,可以提取可解释的策略(例如,线性策略),同时不忽略专家行为的特性。该结果是通过考虑优势函数获得的,优势函数包含有关为什么一个动作优于其他动作的信息。与以往的工作不同,我们的方法能够使用先前收集的经验来训练可解释的策略。所提出的算法在经典控制环境和金融交易场景中进行了实证评估,证明了其从复杂专家策略中提取有意义信息的能力。
🔬 方法详解
问题定义:深度强化学习(DRL)策略通常难以解释,这阻碍了它们在需要透明度和可信度的关键任务中的应用。现有方法要么牺牲性能以换取可解释性,要么无法利用已有的专家经验。因此,如何从复杂的DRL策略中提取出既可解释又具有竞争力的策略是一个重要问题。
核心思路:该论文的核心思路是利用优势函数来指导可解释策略的训练。优势函数能够提供关于动作优劣的信息,从而帮助可解释策略学习模仿专家策略的关键决策过程。通过将优势函数作为桥梁,可以将复杂DRL策略的知识迁移到简单的可解释策略中。
技术框架:该方法主要包含两个阶段:首先,训练一个深度强化学习智能体作为专家策略。然后,利用专家策略的经验数据,通过最小化可解释策略与专家策略在优势函数上的差异来训练可解释策略。具体来说,可解释策略的目标是学习一个线性策略,其输出与专家策略的优势函数尽可能接近。
关键创新:该方法的关键创新在于利用优势函数进行知识蒸馏。与以往直接模仿专家策略的动作或状态-动作对的方法不同,该方法关注的是动作的相对优劣,从而能够更有效地提取专家策略的本质特征。此外,该方法允许使用离线数据进行训练,避免了与环境的直接交互。
关键设计:该方法使用线性策略作为可解释策略的表示形式,并通过最小化均方误差来训练该策略。损失函数定义为可解释策略的输出与专家策略的优势函数之间的平方差。为了提高训练效率,可以使用批量梯度下降等优化算法。此外,可以采用正则化技术来防止过拟合。
🖼️ 关键图片
📊 实验亮点
该论文在经典控制环境和金融交易场景中进行了实验验证。实验结果表明,该方法能够有效地提取可解释的策略,并在保持较高性能的同时,显著提高了策略的可解释性。例如,在金融交易场景中,提取的线性策略能够达到与复杂DRL策略相近的收益率,同时提供了清晰的交易规则。
🎯 应用场景
该研究成果可应用于金融交易、医疗诊断、自动驾驶等领域。在这些领域中,可解释性至关重要,决策者需要理解智能体做出决策的原因。通过提取可解释的策略,可以提高人们对智能体的信任度,并促进其在实际场景中的应用。此外,该方法还可以用于分析和理解复杂DRL策略,从而为改进DRL算法提供新的思路。
📄 摘要(原文)
Recent advances in Reinforcement Learning (RL) largely benefit from the inclusion of Deep Neural Networks, boosting the number of novel approaches proposed in the field of Deep Reinforcement Learning (DRL). These techniques demonstrate the ability to tackle complex games such as Atari, Go, and other real-world applications, including financial trading. Nevertheless, a significant challenge emerges from the lack of interpretability, particularly when attempting to comprehend the underlying patterns learned, the relative importance of the state features, and how they are integrated to generate the policy's output. For this reason, in mission-critical and real-world settings, it is often preferred to deploy a simpler and more interpretable algorithm, although at the cost of performance. In this paper, we propose a novel algorithm, supported by theoretical guarantees, that can extract an interpretable policy (e.g., a linear policy) without disregarding the peculiarities of expert behavior. This result is obtained by considering the advantage function, which includes information about why an action is superior to the others. In contrast to previous works, our approach enables the training of an interpretable policy using previously collected experience. The proposed algorithm is empirically evaluated on classic control environments and on a financial trading scenario, demonstrating its ability to extract meaningful information from complex expert policies.