A novel multi-agent dynamic portfolio optimization learning system based on hierarchical deep reinforcement learning

📄 arXiv: 2501.06832v1 📥 PDF

作者: Ruoyu Sun, Yue Xi, Angelos Stefanidis, Zhengyong Jiang, Jionglong Su

分类: cs.LG, cs.MA

发布日期: 2025-01-12


💡 一句话要点

提出一种基于分层深度强化学习的多智能体动态投资组合优化系统,提升风险调整收益。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 投资组合优化 多智能体系统 分层强化学习 动态投资 风险管理 量化交易

📋 核心要点

  1. 现有基于Actor-Critic的DRL方法在投资组合优化中面临正向奖励稀疏和维度灾难问题,导致风险调整收益提升不明显。
  2. 提出一种多智能体分层深度强化学习(HDRL)框架,通过辅助智能体与执行智能体协同,聚焦高风险调整回报策略探索。
  3. 该框架旨在克服维度灾难,提高正向奖励稀疏环境下的训练效率,从而提升投资组合的风险调整盈利能力。

📝 摘要(中文)

深度强化学习(DRL)已被广泛应用于解决投资组合优化问题。DRL智能体通过与环境的无监督交互来获取知识并做出决策,而无需明确了解投资组合资产的联合动态。在这些DRL算法中,actor-critic算法和深度函数逼近器的结合是最常用的DRL算法。然而,我们发现使用actor-critic算法和深度函数逼近器训练DRL智能体可能导致DRL智能体的风险调整盈利能力提升不显著。我们认为这种情况主要源于两个问题:正向奖励的稀疏性和维度灾难。这些限制阻止了DRL智能体全面学习训练环境中的资产价格变化模式。因此,DRL智能体无法探索动态投资组合优化策略以提高训练过程中的风险调整盈利能力。为了解决这些问题,我们提出了一种新的多智能体分层深度强化学习(HDRL)算法框架。在该框架下,智能体协同工作,形成一个用于投资组合优化的学习系统。具体而言,通过设计一个与执行智能体协同工作的辅助智能体,以实现最佳策略探索,该学习系统可以专注于在具有正回报和低方差的行动空间中探索具有更高风险调整回报的策略。通过这种方式,我们可以克服维度灾难的问题,并提高正向奖励稀疏环境中的训练效率。

🔬 方法详解

问题定义:论文旨在解决使用深度强化学习进行动态投资组合优化时,由于正向奖励稀疏和维度灾难导致智能体学习效率低下的问题。现有方法难以有效探索策略空间,无法充分学习资产价格变化模式,从而限制了风险调整收益的提升。

核心思路:论文的核心思路是引入分层结构和多智能体协作,利用辅助智能体引导执行智能体在高潜力区域进行策略探索。通过将策略学习分解为多个层次,并引入辅助智能体,降低了策略空间的复杂度,并提高了探索效率。

技术框架:该框架包含两个主要智能体:执行智能体和辅助智能体。执行智能体负责执行投资组合策略,而辅助智能体负责引导执行智能体探索更有潜力的行动空间。整个流程如下:首先,辅助智能体根据当前环境状态选择一个行动子空间;然后,执行智能体在该子空间内选择具体的投资组合权重;最后,环境给出奖励信号,两个智能体根据奖励信号更新各自的策略。

关键创新:该方法的关键创新在于引入了辅助智能体,将策略探索过程分解为两个层次:宏观层次的行动空间选择和微观层次的投资组合权重选择。这种分层结构有效地降低了策略空间的维度,并允许智能体更有效地探索高回报区域。此外,多智能体协作机制使得智能体可以相互学习,从而提高整体学习效率。

关键设计:辅助智能体和执行智能体均采用深度神经网络作为函数逼近器。辅助智能体的目标是选择具有高风险调整回报和低方差的行动子空间。执行智能体的目标是在给定的行动子空间内选择最优的投资组合权重。损失函数的设计需要考虑两个智能体的目标,并鼓励它们协同工作,共同提高投资组合的风险调整收益。具体的网络结构和参数设置需要根据具体的实验环境进行调整。

📊 实验亮点

论文提出了一种新的多智能体分层深度强化学习框架,旨在解决动态投资组合优化中的奖励稀疏和维度灾难问题。通过引入辅助智能体,该框架能够更有效地探索高回报区域,从而提高投资组合的风险调整收益。具体的实验结果(未在摘要中提及,此处未知)将进一步验证该方法的有效性。

🎯 应用场景

该研究成果可应用于量化交易、智能投顾等金融领域,帮助投资者构建更优的动态投资组合,提高风险调整收益。通过引入分层深度强化学习,可以更有效地应对复杂的市场环境,并为投资者提供更智能化的投资决策支持。未来,该方法还可以扩展到其他需要进行动态决策的领域,如供应链管理、资源调度等。

📄 摘要(原文)

Deep Reinforcement Learning (DRL) has been extensively used to address portfolio optimization problems. The DRL agents acquire knowledge and make decisions through unsupervised interactions with their environment without requiring explicit knowledge of the joint dynamics of portfolio assets. Among these DRL algorithms, the combination of actor-critic algorithms and deep function approximators is the most widely used DRL algorithm. Here, we find that training the DRL agent using the actor-critic algorithm and deep function approximators may lead to scenarios where the improvement in the DRL agent's risk-adjusted profitability is not significant. We propose that such situations primarily arise from the following two problems: sparsity in positive reward and the curse of dimensionality. These limitations prevent DRL agents from comprehensively learning asset price change patterns in the training environment. As a result, the DRL agents cannot explore the dynamic portfolio optimization policy to improve the risk-adjusted profitability in the training process. To address these problems, we propose a novel multi-agent Hierarchical Deep Reinforcement Learning (HDRL) algorithmic framework in this research. Under this framework, the agents work together as a learning system for portfolio optimization. Specifically, by designing an auxiliary agent that works together with the executive agent for optimal policy exploration, the learning system can focus on exploring the policy with higher risk-adjusted return in the action space with positive return and low variance. In this way, we can overcome the issue of the curse of dimensionality and improve the training efficiency in the positive reward sparse environment.