A Meta Reinforcement Learning Approach to Goals-Based Wealth Management

📄 arXiv: 2605.02300v1 📥 PDF

作者: Sanjiv R. Das, Harshad Khadilkar, Sukrit Mittal, Daniel Ostrov, Deep Srivastav, Hungjen Wang

分类: cs.LG

发布日期: 2026-05-04

期刊: The Journal of Finance and Data Science, Volume 12, 2026, 100186,ISSN 2405-9188

DOI: 10.1016/j.jfds.2026.100186


💡 一句话要点

提出基于元强化学习的财富管理方法,快速解决个性化投资组合优化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 元强化学习 财富管理 投资组合优化 目标导向 动态规划

📋 核心要点

  1. 传统财富管理方法需要为每个投资者单独训练和优化,计算成本高昂且效率低下。
  2. 该论文提出一种基于元强化学习的框架,通过预训练学习通用策略,实现对新投资者的快速适应。
  3. 实验表明,该方法在速度和性能上均优于传统方法,且对市场变化具有良好的鲁棒性。

📝 摘要(中文)

本文提出了一种基于元强化学习(MetaRL)的财富管理方法,该方法借鉴了零样本元学习和预训练模型的相关概念,并在数千个基于目标的财富管理(GBWM)问题上进行了预训练。每个GBWM问题都涉及一个多年期场景,投资者需要在每年选择最优的投资组合,并决定实现全部、部分或不实现不同的财务目标。这些选择旨在最大化投资者从已实现的财务目标中获得的预期总效用。通过消除对每个新投资者问题的单独训练和优化,MetaRL模型在推理模式下,可以在百分之几秒内为新的GBWM问题生成接近最优的动态投资组合和目标实现策略。实验结果表明,MetaRL方法获得的预期效用平均达到动态规划所得最优预期效用的97.8%。即使仅使用一种资本市场机制进行训练,该结果对资本市场机制的变化也具有显著的鲁棒性。此外,MetaRL方法能够解决具有更大状态空间的问题,而动态规划在计算上变得不可行。

🔬 方法详解

问题定义:传统的财富管理方法,例如动态规划,需要针对每个投资者的问题进行单独的训练和优化,这在计算上是昂贵的,并且难以扩展到具有大量状态空间的问题。此外,这些方法可能无法很好地适应资本市场的变化。因此,需要一种能够快速适应新投资者需求,并且对市场变化具有鲁棒性的方法。

核心思路:该论文的核心思路是利用元强化学习(MetaRL)来学习一个通用的策略,该策略可以快速适应新的基于目标的财富管理(GBWM)问题。通过在大量不同的GBWM问题上进行预训练,MetaRL模型可以学习到一种能够有效平衡风险和回报,并实现投资者财务目标的策略。当遇到新的投资者时,该模型可以利用预训练的知识,快速生成个性化的投资组合和目标实现策略,而无需进行大量的重新训练。

技术框架:该方法的技术框架主要包括两个阶段:预训练阶段和推理阶段。在预训练阶段,MetaRL模型在数千个不同的GBWM问题上进行训练,每个问题都代表一个不同的投资者及其财务目标。在推理阶段,当遇到新的投资者时,MetaRL模型利用预训练的知识,快速生成个性化的投资组合和目标实现策略。该模型使用循环神经网络(RNN)来处理时间序列数据,并使用深度神经网络(DNN)来学习策略和价值函数。

关键创新:该论文的关键创新在于将元强化学习应用于基于目标的财富管理问题。通过利用元学习的思想,该方法能够学习到一种通用的策略,该策略可以快速适应新的投资者需求,而无需进行大量的重新训练。此外,该方法还能够处理具有较大状态空间的问题,而传统的动态规划方法则难以胜任。

关键设计:该模型使用了一种基于策略梯度的方法进行训练,目标是最大化投资者从已实现的财务目标中获得的预期总效用。损失函数包括策略损失和价值损失,策略损失用于优化投资组合的选择,价值损失用于估计未来预期效用。网络结构包括一个RNN层用于处理时间序列数据,以及多个DNN层用于学习策略和价值函数。关键参数包括学习率、折扣因子和探索率等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MetaRL方法获得的预期效用平均达到动态规划所得最优预期效用的97.8%,且计算速度远快于动态规划。即使仅使用一种资本市场机制进行训练,该结果对资本市场机制的变化也具有显著的鲁棒性,表明该方法具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于智能投顾领域,为个人投资者提供个性化的投资组合建议和财务规划方案。通过快速适应不同投资者的风险偏好和财务目标,该方法能够显著提升投资效率和用户体验。此外,该方法还可应用于养老金管理、资产配置等领域,具有广阔的应用前景。

📄 摘要(原文)

Applying concepts related to zero-shot meta-learning and pre-training of foundation models, we develop a meta reinforcement learning approach (denoted MetaRL) that is pre-trained on thousands of goals-based wealth management (GBWM) problems. Each GBWM problem involves a multiple year scenario over which the investor looks to optimally choose an investment portfolio each year and choose to fulfill all, some, or none of the different financial goals that arise each year. These choices seek to maximize the expected total investor utility obtained from the fulfilled financial goals. By eliminating separate training and optimization for each new investor problem, the MetaRL model in inference mode produces near-optimal dynamic investment portfolio and goal-fulfilling strategies for a new GBWM problem within a few hundredths of a second. This delivers expected utilities that are, on average, 97.8% of the optimal expected utilities (determined via Dynamic Programming). These results are remarkably robust to capital market regime changes, even when training uses only one capital market regime. Further, the MetaRL approach can enable solving problems with larger state spaces where Dynamic Programming becomes computationally infeasible.