Explainable Post hoc Portfolio Management Financial Policy of a Deep Reinforcement Learning agent

📄 arXiv: 2407.14486v1 📥 PDF

作者: Alejandra de la Rica Escudero, Eduardo C. Garrido-Merchan, Maria Coronado-Vaca

分类: cs.CE, cs.AI, q-fin.PM

发布日期: 2024-07-19


💡 一句话要点

提出一种可解释的后验投资组合管理金融策略,提升深度强化学习应用透明度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 可解释性AI 投资组合管理 金融策略 近端策略优化

📋 核心要点

  1. 传统投资组合管理方法在高波动市场中表现不佳,而深度强化学习方法缺乏可解释性,限制了其在金融领域的应用。
  2. 该论文提出一种可解释的深度强化学习(XDRL)方法,结合PPO与SHAP、LIME等技术,增强模型预测的透明度。
  3. 实验结果表明,该方法能够识别影响投资决策的关键特征,从而解释智能体的行为,提升了投资决策的可信度。

📝 摘要(中文)

现代投资组合理论(如马科维茨模型)依赖于在高波动市场中数据不支持的假设。深度强化学习(DRL)方法在解决投资组合管理问题上取得了成功。DRL算法通过估计在模拟器中给定任何金融状态下,智能体执行每个动作的预期奖励分布来训练智能体。然而,这些方法依赖于深度神经网络模型来表示这种分布,虽然它们是通用逼近器模型,但无法解释其行为,因为其行为由一组不可解释的参数决定。金融投资者需要可解释的预测,因此DRL智能体不适合遵循特定策略或解释其行为。本文提出了一种新的可解释深度强化学习(XDRL)方法,用于投资组合管理,将近端策略优化(PPO)与模型无关的可解释技术(特征重要性、SHAP和LIME)相结合,以提高预测时的透明度。该方法能够在预测时解释智能体的行为,以评估其是否符合投资策略的要求或评估遵循智能体建议的风险。据我们所知,这是第一个DRL智能体的可解释后验投资组合管理金融策略。通过实验,成功识别了影响投资决策的关键特征,证明了在预测时解释智能体行为的能力。

🔬 方法详解

问题定义:论文旨在解决深度强化学习在金融投资组合管理中应用时缺乏可解释性的问题。现有DRL方法依赖于复杂的神经网络,其决策过程难以理解,这使得投资者难以信任和采纳DRL智能体的建议。因此,如何提高DRL在金融领域的透明度和可解释性是本研究的核心问题。

核心思路:论文的核心思路是将模型无关的可解释性技术(如SHAP、LIME)与深度强化学习算法(PPO)相结合,从而在预测时解释智能体的行为。通过分析输入特征对智能体决策的影响,揭示智能体的投资逻辑,提高决策透明度。

技术框架:该方法基于Proximal Policy Optimization (PPO) 算法,并集成了模型无关的可解释性技术。整体流程如下:首先,使用PPO训练一个DRL智能体,使其能够根据市场状态做出投资决策。然后,在预测时,使用SHAP或LIME等技术分析输入特征对智能体决策的影响,从而解释智能体的行为。最后,将解释结果呈现给投资者,帮助他们理解智能体的投资逻辑。

关键创新:该论文的关键创新在于将模型无关的可解释性技术应用于深度强化学习的投资组合管理。通过这种方式,可以在不改变DRL模型本身的情况下,提高其可解释性。据作者所知,这是第一个DRL智能体的可解释后验投资组合管理金融策略。

关键设计:论文中,PPO算法用于训练智能体,SHAP和LIME等技术用于解释智能体的行为。具体而言,SHAP值用于衡量每个输入特征对智能体决策的贡献,LIME用于构建局部可解释的模型,从而近似智能体的行为。此外,论文还设计了一套评估指标,用于衡量解释结果的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够成功识别影响投资决策的关键特征,例如,某些技术指标或市场情绪指标。通过分析这些关键特征,可以解释智能体的投资行为,并评估其是否符合投资策略的要求。该方法在预测时提供了对智能体行为的洞察,增强了投资决策的透明度。

🎯 应用场景

该研究成果可应用于量化投资、智能投顾等领域。通过提高DRL模型的可解释性,可以增强投资者对智能投顾系统的信任,促进DRL技术在金融领域的应用。此外,该方法还可以用于风险评估,帮助投资者识别潜在的投资风险。

📄 摘要(原文)

Financial portfolio management investment policies computed quantitatively by modern portfolio theory techniques like the Markowitz model rely on a set on assumptions that are not supported by data in high volatility markets. Hence, quantitative researchers are looking for alternative models to tackle this problem. Concretely, portfolio management is a problem that has been successfully addressed recently by Deep Reinforcement Learning (DRL) approaches. In particular, DRL algorithms train an agent by estimating the distribution of the expected reward of every action performed by an agent given any financial state in a simulator. However, these methods rely on Deep Neural Networks model to represent such a distribution, that although they are universal approximator models, they cannot explain its behaviour, given by a set of parameters that are not interpretable. Critically, financial investors policies require predictions to be interpretable, so DRL agents are not suited to follow a particular policy or explain their actions. In this work, we developed a novel Explainable Deep Reinforcement Learning (XDRL) approach for portfolio management, integrating the Proximal Policy Optimization (PPO) with the model agnostic explainable techniques of feature importance, SHAP and LIME to enhance transparency in prediction time. By executing our methodology, we can interpret in prediction time the actions of the agent to assess whether they follow the requisites of an investment policy or to assess the risk of following the agent suggestions. To the best of our knowledge, our proposed approach is the first explainable post hoc portfolio management financial policy of a DRL agent. We empirically illustrate our methodology by successfully identifying key features influencing investment decisions, which demonstrate the ability to explain the agent actions in prediction time.