Robust Bayesian Dynamic Programming for On-policy Risk-sensitive Reinforcement Learning
作者: Shanyu Han, Yangbo He, Yang Liu
分类: q-fin.RM, cs.LG
发布日期: 2025-12-31
备注: 63 pages
💡 一句话要点
提出鲁棒贝叶斯动态规划,用于解决策略风险敏感强化学习中的转移不确定性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 风险敏感强化学习 鲁棒优化 贝叶斯动态规划 转移不确定性 相干风险度量
📋 核心要点
- 现有强化学习方法在处理环境转移概率不确定性时存在不足,可能导致策略的风险敏感性降低。
- 论文提出一种鲁棒贝叶斯动态规划框架,通过内外两层风险度量分别处理状态成本随机性和转移动态不确定性。
- 实验结果表明,该方法在风险敏感性和鲁棒性方面均有提升,并在期权对冲等实际应用中表现出优势。
📝 摘要(中文)
本文提出了一种新的风险敏感强化学习(RSRL)框架,该框架融合了针对转移不确定性的鲁棒性。我们定义了两种截然不同但又相互关联的风险度量:一种内部风险度量,用于处理状态和成本的随机性;另一种外部风险度量,用于捕获转移动态的不确定性。我们的框架通过允许内部和外部风险度量采用一般的相干风险度量,统一并推广了大多数现有的RL框架。在此框架内,我们构建了一个风险敏感的鲁棒马尔可夫决策过程(RSRMDP),推导了其贝尔曼方程,并在给定的后验分布下提供了误差分析。我们进一步开发了一种贝叶斯动态规划(Bayesian DP)算法,该算法在后验更新和值迭代之间交替进行。该方法采用了一种基于风险的贝尔曼算子的估计器,该估计器将蒙特卡洛采样与凸优化相结合,并为此证明了强一致性保证。此外,我们证明了该算法收敛到训练环境中接近最优的策略,并分析了Dirichlet后验和CVaR下的样本复杂度和计算复杂度。最后,我们通过两个数值实验验证了我们的方法。结果显示出优异的收敛特性,同时直观地展示了其在风险敏感性和鲁棒性方面的优势。通过期权对冲的应用,我们进一步从经验上证明了所提出的算法的优势。
🔬 方法详解
问题定义:现有的强化学习方法在处理环境转移概率不确定性时,往往缺乏足够的鲁棒性,导致学习到的策略在实际应用中表现不佳,尤其是在风险敏感的场景下。传统的强化学习方法通常假设环境是完全已知的,或者通过一些简单的正则化方法来处理不确定性,但这些方法无法有效地应对复杂的转移不确定性。
核心思路:论文的核心思路是将鲁棒优化和贝叶斯动态规划相结合,通过内外两层风险度量来显式地建模和处理转移不确定性。内层风险度量用于处理状态和成本的随机性,外层风险度量用于捕获转移动态的不确定性。这种双层风险度量的设计允许算法在面对不确定性时,能够更加保守和稳健地进行决策。
技术框架:该方法构建了一个风险敏感的鲁棒马尔可夫决策过程(RSRMDP),并推导了其贝尔曼方程。整体框架包含以下几个主要步骤:1) 定义内外两层相干风险度量;2) 构建RSRMDP并推导贝尔曼方程;3) 开发贝叶斯动态规划算法,交替进行后验更新和值迭代;4) 使用蒙特卡洛采样和凸优化相结合的估计器来估计基于风险的贝尔曼算子。
关键创新:该方法最重要的技术创新点在于提出了一个统一的框架,能够处理一般的相干风险度量,并且能够显式地建模和处理转移不确定性。与现有的强化学习方法相比,该方法更加鲁棒,并且能够更好地适应风险敏感的场景。此外,该方法还提供了一种基于贝叶斯动态规划的算法,能够有效地学习到接近最优的策略。
关键设计:该方法的关键设计包括:1) 使用CVaR(条件风险价值)作为风险度量的一个具体实例;2) 使用Dirichlet后验分布来建模转移概率的不确定性;3) 使用蒙特卡洛采样来估计贝尔曼算子,并通过凸优化来提高估计的准确性;4) 算法在后验更新和值迭代之间交替进行,以不断提高策略的性能。
📊 实验亮点
实验结果表明,该方法在风险敏感性和鲁棒性方面均有显著提升。在数值实验中,该方法表现出优异的收敛特性,并且能够有效地应对转移不确定性。在期权对冲的应用中,该方法能够显著降低投资组合的风险,并获得更高的收益。
🎯 应用场景
该研究成果可应用于金融领域的期权对冲、自动驾驶中的安全决策、医疗领域的个性化治疗方案制定等风险敏感的决策场景。通过考虑环境的不确定性,该方法能够帮助决策者制定更加稳健和可靠的策略,降低潜在的损失,提高决策的安全性。
📄 摘要(原文)
We propose a novel framework for risk-sensitive reinforcement learning (RSRL) that incorporates robustness against transition uncertainty. We define two distinct yet coupled risk measures: an inner risk measure addressing state and cost randomness and an outer risk measure capturing transition dynamics uncertainty. Our framework unifies and generalizes most existing RL frameworks by permitting general coherent risk measures for both inner and outer risk measures. Within this framework, we construct a risk-sensitive robust Markov decision process (RSRMDP), derive its Bellman equation, and provide error analysis under a given posterior distribution. We further develop a Bayesian Dynamic Programming (Bayesian DP) algorithm that alternates between posterior updates and value iteration. The approach employs an estimator for the risk-based Bellman operator that combines Monte Carlo sampling with convex optimization, for which we prove strong consistency guarantees. Furthermore, we demonstrate that the algorithm converges to a near-optimal policy in the training environment and analyze both the sample complexity and the computational complexity under the Dirichlet posterior and CVaR. Finally, we validate our approach through two numerical experiments. The results exhibit excellent convergence properties while providing intuitive demonstrations of its advantages in both risk-sensitivity and robustness. Empirically, we further demonstrate the advantages of the proposed algorithm through an application on option hedging.