SAMP-HDRL: Segmented Allocation with Momentum-Adjusted Utility for Multi-agent Portfolio Management via Hierarchical Deep Reinforcement Learning
作者: Xiaotian Ren, Nuerxiati Abudurexiti, Zhengyong Jiang, Angelos Stefanidis, Hongbin Liu, Jionglong Su
分类: cs.AI
发布日期: 2025-12-28
💡 一句话要点
SAMP-HDRL:通过分层深度强化学习进行多智能体投资组合管理的动态分段配置方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体 投资组合管理 深度强化学习 分层强化学习 动态资产配置
📋 核心要点
- 非平稳市场中的投资组合优化面临 regime 转换、动态相关性和深度强化学习策略可解释性有限的挑战。
- SAMP-HDRL 通过动态资产分组、分层智能体结构和基于效用的资本配置机制,提升投资组合管理的适应性、鲁棒性和可解释性。
- 实验结果表明,SAMP-HDRL 在回报率、夏普比率、索提诺比率和欧米茄比率上均优于传统基线和 DRL 基准,尤其在动荡市场中表现突出。
📝 摘要(中文)
本文提出了一种用于多智能体投资组合管理的、基于分层深度强化学习的动态分段配置方法,称为SAMP-HDRL。该方法首先应用动态资产分组将市场划分为高质量和普通子集。上层智能体提取全局市场信号,而下层智能体在掩码约束下执行组内资产配置。一种基于效用的资本配置机制整合了风险资产和无风险资产,确保全局和局部决策之间的一致协调。在三个市场机制(2019-2021)上的回测表明,SAMP-HDRL在波动和振荡条件下始终优于九个传统基线和九个DRL基准。与最强的基线相比,我们的方法实现了至少5%的更高回报率、5%的更高夏普比率、5%的更高索提诺比率和2%的更高欧米茄比率,在动荡的市场中观察到更大的收益。消融研究证实,上下协调、动态聚类和资本配置对于鲁棒性是必不可少的。基于SHAP的可解释性进一步揭示了智能体之间互补的“多元化+集中”机制,为决策提供了透明的见解。总体而言,SAMP-HDRL将结构性市场约束直接嵌入到DRL流程中,从而在复杂的金融环境中提供更高的适应性、鲁棒性和可解释性。
🔬 方法详解
问题定义:论文旨在解决非平稳市场中投资组合优化的问题。现有方法,特别是传统的深度强化学习方法,在处理市场 regime 转换、动态相关性以及策略可解释性方面存在不足,难以适应复杂多变的市场环境。
核心思路:论文的核心思路是将市场结构约束直接嵌入到深度强化学习流程中,通过分层智能体结构和动态资产分组,实现更精细化的资产配置和风险管理。上层智能体负责全局市场信号提取,下层智能体负责组内资产配置,从而实现“多元化+集中”的投资策略。
技术框架:SAMP-HDRL 框架包含以下主要模块:1) 动态资产分组:将市场划分为高质量和普通子集;2) 分层智能体结构:上层智能体提取全局市场信号,下层智能体在掩码约束下执行组内资产配置;3) 基于效用的资本配置机制:整合风险资产和无风险资产,协调全局和局部决策。整体流程是,首先进行动态资产分组,然后上层智能体和下层智能体并行进行决策,最后通过资本配置机制整合决策结果。
关键创新:论文的关键创新在于将动态资产分组和分层智能体结构相结合,并引入基于效用的资本配置机制。这种结构能够更好地捕捉市场动态变化,实现更精细化的资产配置,并提高策略的可解释性。与现有方法相比,SAMP-HDRL 能够更有效地适应非平稳市场,并在风险控制和收益提升方面取得更好的效果。
关键设计:论文的关键设计包括:1) 动态资产分组的聚类算法选择;2) 上层和下层智能体的网络结构设计,例如 LSTM 或 Transformer;3) 基于效用的资本配置机制的具体实现,例如风险厌恶系数的设置;4) 损失函数的设计,例如 Sharpe Ratio 或 Sortino Ratio 的优化目标。
🖼️ 关键图片
📊 实验亮点
SAMP-HDRL 在三个市场机制(2019-2021)上的回测表明,其性能始终优于九个传统基线和九个 DRL 基准。与最强的基线相比,SAMP-HDRL 实现了至少 5% 的更高回报率、5% 的更高夏普比率、5% 的更高索提诺比率和 2% 的更高欧米茄比率,尤其在动荡的市场中收益提升更为显著。消融研究也验证了上下协调、动态聚类和资本配置对于模型鲁棒性的重要性。
🎯 应用场景
该研究成果可应用于量化交易、智能投顾等金融领域。通过 SAMP-HDRL 框架,可以构建更具适应性、鲁棒性和可解释性的投资组合管理系统,帮助投资者在复杂多变的市场环境中实现更好的投资回报和风险控制。未来,该方法还可以扩展到其他金融资产类别,例如外汇、期货等。
📄 摘要(原文)
Portfolio optimization in non-stationary markets is challenging due to regime shifts, dynamic correlations, and the limited interpretability of deep reinforcement learning (DRL) policies. We propose a Segmented Allocation with Momentum-Adjusted Utility for Multi-agent Portfolio Management via Hierarchical Deep Reinforcement Learning (SAMP-HDRL). The framework first applies dynamic asset grouping to partition the market into high-quality and ordinary subsets. An upper-level agent extracts global market signals, while lower-level agents perform intra-group allocation under mask constraints. A utility-based capital allocation mechanism integrates risky and risk-free assets, ensuring coherent coordination between global and local decisions. backtests across three market regimes (2019--2021) demonstrate that SAMP-HDRL consistently outperforms nine traditional baselines and nine DRL benchmarks under volatile and oscillating conditions. Compared with the strongest baseline, our method achieves at least 5\% higher Return, 5\% higher Sharpe ratio, 5\% higher Sortino ratio, and 2\% higher Omega ratio, with substantially larger gains observed in turbulent markets. Ablation studies confirm that upper--lower coordination, dynamic clustering, and capital allocation are indispensable to robustness. SHAP-based interpretability further reveals a complementary ``diversified + concentrated'' mechanism across agents, providing transparent insights into decision-making. Overall, SAMP-HDRL embeds structural market constraints directly into the DRL pipeline, offering improved adaptability, robustness, and interpretability in complex financial environments.