Policy Gradient Methods for Non-Markovian Reinforcement Learning
作者: Avik Kar, Siddharth Chandak, Rahul Singh, Soumitra Sinhahajari, Eric Moulines, Shalabh Bhatnagar, Nicholas Bambos
分类: cs.LG, cs.AI
发布日期: 2026-05-11
备注: 39 pages, 5 figures, 1 table
💡 一句话要点
提出代理状态马尔可夫策略梯度(ASMPG)算法,解决非马尔可夫决策过程中的策略优化难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 策略梯度 非马尔可夫决策过程 状态表示学习 递归神经网络 序列决策
📋 核心要点
- 核心问题:在非马尔可夫决策过程中,观测与奖励依赖于历史全序列,导致传统马尔可夫假设失效,且现有基于预测性目标学习状态的方法往往难以直接优化累积奖励。
- 方法要点:提出代理状态马尔可夫(ASM)策略,通过联合优化内部状态动力学与控制策略,将历史依赖转化为递归更新的马尔可夫过程,并推导了相应的策略梯度定理。
- 实验效果:在多种非马尔可夫基准任务中,ASMPG算法展现了优于现有预测性表征学习方法的性能,并从理论上保证了算法的有限时间收敛性。
📝 摘要(中文)
本文研究了非马尔可夫决策过程(NMDP)中的策略梯度方法,其中观测和奖励依赖于完整的交互历史。为了处理这种依赖性,智能体维护一个递归更新的内部状态,作为对过去观测和动作的紧凑总结。与将智能体状态动力学视为固定或通过预测性目标学习的方法不同,本文提出了一种以奖励为中心的公式,联合优化智能体状态动力学和控制策略,以最大化期望累积奖励。为此,作者引入了一类代理状态马尔可夫(ASM)策略,并建立了一个新的策略梯度定理,将经典的马尔可夫策略梯度结果扩展到情景式和无限期折扣NMDP。基于此梯度表达式,作者提出了ASMPG算法,利用状态动力学的递归结构进行高效优化,并证明了其有限时间和几乎确定的收敛性。实验表明,ASMPG在多种非马尔可夫任务中优于基于预测性目标学习状态表示的基线方法。
🔬 方法详解
问题定义:论文旨在解决非马尔可夫决策过程(NMDP)中的策略优化问题。在NMDP中,环境的观测和奖励取决于整个交互历史,这使得传统的马尔可夫策略梯度方法无法直接应用。现有方法通常依赖于预测性目标(如重构或预测未来观测)来学习状态表示,但这种方式往往与最终的奖励最大化目标脱节。
核心思路:论文提出了一种“以奖励为中心”的联合优化框架。通过引入代理状态(Agent State),将历史信息压缩为递归更新的隐变量,从而将NMDP转化为一个在代理状态空间上的马尔可夫决策过程(ASM),直接对累积奖励进行梯度优化。
技术框架:该框架包含两个核心组件:一是状态动力学模型,负责根据当前状态和历史输入递归更新代理状态;二是控制策略,负责将代理状态映射为动作。算法通过策略梯度定理,对这两个组件进行端到端的联合训练。
关键创新:最重要的创新在于推导了ASM策略的策略梯度定理,证明了在非马尔可夫环境下,通过递归状态更新可以实现与马尔可夫环境等价的梯度估计。这打破了以往必须依赖辅助预测任务来学习状态表示的局限。
关键设计:算法利用递归结构计算梯度,通过反向传播(BPTT)或类似机制处理状态更新的依赖链。在损失函数设计上,直接针对期望累积奖励进行优化,并提供了有限时间收敛性的理论证明,确保了算法在训练过程中的稳定性和有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ASMPG在处理具有长时依赖的非马尔可夫任务时,表现显著优于基于预测性目标(如VAE或预测模型)的基线方法。在多个基准测试中,ASMPG不仅收敛速度更快,且最终累积奖励更高,验证了联合优化状态动力学与控制策略在复杂决策任务中的优越性。
🎯 应用场景
该方法适用于观测受限、环境具有长时依赖或部分可观测的复杂场景,如机器人长序列任务规划、金融市场高频交易策略优化、以及需要处理历史上下文的复杂对话系统。其核心价值在于通过端到端学习实现高效的状态压缩与决策优化,为处理非马尔可夫复杂系统提供了通用的理论与算法框架。
📄 摘要(原文)
We study policy gradient methods for reinforcement learning in non-Markovian decision processes (NMDPs), where observations and rewards depend on the entire interaction history. To handle this dependence, the agent maintains an internal state that is recursively updated to provide a compact summary of past observations and actions. In contrast to approaches that treat the agent state dynamics as fixed or learn it via predictive objectives, we propose a reward-centric formulation that jointly optimizes the agent state dynamics and the control policy to maximize the expected cumulative reward. To this end, we consider a class of Agent State-Markov (ASM) policies, comprising an agent state dynamics and a control policy that maps the agent state to actions. We establish a novel policy gradient theorem for ASM policies, extending the classical policy gradient results from the Markovian setting to episodic and infinite-horizon discounted NMDPs. Building on this gradient expression, we propose the Agent State-Markov Policy Gradient (ASMPG) algorithm, which leverages the recursive structure of the agent state dynamics for efficient optimization. We establish finite-time and almost sure convergence guarantees, and empirically demonstrate that, on a range of non-Markovian tasks, ASMPG outperforms baselines that learn state representations via predictive objectives.