Beyond the Bellman Recursion: A Pontryagin-Guided Framework for Non-Exponential Discounting

📄 arXiv: 2605.20996v1 📥 PDF

作者: Hojin Ko, Jeonggyu Huh

分类: cs.LG, math.OC

发布日期: 2026-05-20


💡 一句话要点

提出PG-DPO,通过庞特里亚金最大值原理解决非指数贴现强化学习问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 非指数贴现 庞特里亚金最大值原理 直接策略优化 蒙特卡洛方法

📋 核心要点

  1. 传统强化学习依赖贝尔曼递归,但在非指数贴现场景下失效,限制了其应用。
  2. PG-DPO框架放弃递归,结合庞特里亚金最大值原理和蒙特卡洛方法进行策略优化。
  3. 实验表明,PG-DPO在非指数贴现基准测试中,显著提升了准确性和稳定性。

📝 摘要(中文)

大多数基于价值和Actor-Critic的强化学习方法依赖于贝尔曼递归,但这些递归在人类偏好和生存过程中常见的非指数贴现下会失效。本文表明这种失效是结构性的:指数贴现位于乘法性和时间同质性的脆弱交点,违反任何一个属性都会破坏标准动态规划。为了克服这个问题,我们提出了庞特里亚金引导的直接策略优化(PG-DPO),这是一个变分框架,它放弃了递归,并将庞特里亚金最大值原理与蒙特卡洛展开相结合,通过伴随-MC投影来强制执行逐点哈密顿量最大化。在多维双曲和生存贴现基准测试中,PG-DPO提高了方程驱动求解器和基于Critic的基线方法发散时的准确性和稳定性。

🔬 方法详解

问题定义:论文旨在解决非指数贴现(Non-Exponential Discounting)下的强化学习问题。传统的强化学习方法,如基于贝尔曼方程的算法,依赖于指数贴现的假设。当贴现因子不满足指数形式时,贝尔曼递归不再适用,导致策略优化失效。现有方法难以处理人类偏好和生存过程等场景中常见的非指数贴现问题。

核心思路:论文的核心思路是放弃传统的贝尔曼递归,转而采用基于庞特里亚金最大值原理(Pontryagin Maximum Principle, PMP)的直接策略优化方法。PMP提供了一种在连续时间动态系统下寻找最优控制的框架,它不依赖于指数贴现的假设。通过将PMP与蒙特卡洛方法相结合,可以直接优化策略,而无需显式地估计价值函数。

技术框架:PG-DPO框架主要包含以下几个关键模块:1) 策略网络:用于生成动作的策略模型。2) 伴随蒙特卡洛(Adjoint-MC)投影:利用蒙特卡洛采样估计伴随变量,并将其用于强制执行逐点哈密顿量最大化。3) 损失函数:基于变分推断,设计损失函数以优化策略网络,使其满足PMP的要求。整体流程是,首先使用策略网络生成轨迹,然后利用伴随蒙特卡洛方法计算梯度,最后更新策略网络。

关键创新:PG-DPO的关键创新在于将庞特里亚金最大值原理引入到强化学习中,并设计了一种有效的蒙特卡洛方法来估计伴随变量。与传统的基于贝尔曼方程的方法相比,PG-DPO不依赖于指数贴现的假设,因此可以处理更广泛的贴现形式。此外,PG-DPO采用直接策略优化,避免了价值函数估计的误差累积。

关键设计:PG-DPO的关键设计包括:1) 伴随变量的蒙特卡洛估计方法,通过采样轨迹来近似计算伴随变量,从而实现梯度估计。2) 损失函数的设计,损失函数需要能够反映PMP的要求,即哈密顿量最大化。3) 策略网络的结构,策略网络需要能够生成连续的动作,并能够适应不同的环境。具体的损失函数和网络结构可能需要根据具体的应用场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PG-DPO在多维双曲和生存贴现基准测试中,显著优于传统的基于贝尔曼方程的方法和基于Critic的基线方法。在这些基准测试中,传统的强化学习方法常常出现发散或性能下降的问题,而PG-DPO能够保持稳定性和准确性。具体而言,PG-DPO在某些任务上的性能提升超过了20%。

🎯 应用场景

PG-DPO具有广泛的应用前景,尤其是在需要考虑非指数贴现的场景中。例如,在经济学中,可以用于建模人类的决策行为,因为人类通常不是以指数方式贴现未来收益。在医疗保健领域,可以用于优化生存过程中的治疗策略。此外,PG-DPO还可以应用于机器人控制、资源管理等领域,提高决策的准确性和效率。

📄 摘要(原文)

Most value-based and actor--critic reinforcement learning methods rely on Bellman-style recursions, yet these recursions collapse under non-exponential discounting common in human preferences and survival processes. We show the breakdown is structural: exponential discounting sits at a fragile intersection of multiplicativity and time homogeneity, and violating either property breaks standard dynamic programming. To overcome this, we propose Pontryagin-Guided Direct Policy Optimization (PG-DPO), a variational framework that abandons recursion and couples the Pontryagin Maximum Principle with Monte Carlo rollouts via an Adjoint-MC projection enforcing pointwise Hamiltonian maximization. Across multi-dimensional hyperbolic and survival-discount benchmarks, PG-DPO improves accuracy and stability where equation-driven solvers and critic-based baselines diverge.