Model-Based Reinforcement Learning in Discrete-Action Non-Markovian Reward Decision Processes

📄 arXiv: 2512.14617v1 📥 PDF

作者: Alessandro Trapasso, Luca Iocchi, Fabio Patrizi

分类: cs.LG, cs.AI

发布日期: 2025-12-16

备注: 19 pages, 32 figures, includes appendix


💡 一句话要点

提出QR-MAX算法,解决离散动作非马尔可夫奖励决策过程中的模型学习与策略优化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 非马尔可夫决策过程 模型学习 奖励机器 样本效率

📋 核心要点

  1. 传统马尔可夫强化学习难以处理奖励依赖于历史状态的决策问题,非马尔可夫奖励决策过程强化学习缺乏理论保证。
  2. QR-MAX算法通过奖励机器分解马尔可夫转移学习和非马尔科夫奖励处理,实现高效学习。
  3. 实验表明,QR-MAX在样本效率和策略优化鲁棒性方面优于现有基于模型的强化学习方法。

📝 摘要(中文)

许多实际决策问题依赖于整个系统历史,而非仅依赖于达到具有期望属性的状态。马尔可夫强化学习(RL)方法不适用于此类任务,而非马尔可夫奖励决策过程(NMRDPs)的RL使智能体能够处理时间依赖性任务。然而,这种方法长期以来缺乏关于(近)最优性和样本效率的形式保证。我们提出了QR-MAX,一种用于离散NMRDPs的新型基于模型的算法,它通过奖励机器将马尔可夫转移学习与非马尔可夫奖励处理分解开来,从而解决这两个问题。据我们所知,这是第一个用于离散动作NMRDPs的基于模型的RL算法,它利用这种分解来获得PAC收敛到具有多项式样本复杂度的ε-最优策略。然后,我们将QR-MAX扩展到具有Bucket-QR-MAX的连续状态空间,Bucket-QR-MAX是一种基于SimHash的离散器,它保留了相同的分解结构,并在没有手动网格划分或函数逼近的情况下实现快速稳定的学习。我们在复杂度不断增加的环境中,将我们的方法与现代最先进的基于模型的RL方法进行了实验比较,结果表明在样本效率方面有显著提高,并且在寻找最优策略方面具有更高的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决离散动作非马尔可夫奖励决策过程(NMRDPs)中的强化学习问题。传统的马尔可夫强化学习方法无法有效处理奖励依赖于整个系统历史的任务,而直接应用非马尔可夫强化学习方法又缺乏理论保证,尤其是在样本效率和最优性方面。现有方法通常需要大量的样本才能收敛到较好的策略,并且难以保证找到最优策略。

核心思路:论文的核心思路是将马尔可夫转移学习与非马尔可夫奖励处理进行解耦。具体来说,利用奖励机器(Reward Machine)来显式地建模非马尔可夫的奖励函数,然后分别学习马尔可夫转移模型和奖励机器的状态转移。这种分解使得算法可以更有效地利用数据,并更容易进行理论分析。

技术框架:QR-MAX算法的整体框架如下:首先,智能体与环境交互,收集状态转移和奖励数据。然后,利用这些数据学习马尔可夫转移模型和奖励机器的状态转移。接着,使用学习到的模型进行规划,得到最优策略。最后,将该策略应用到实际环境中,并重复以上过程,不断优化策略。对于连续状态空间,论文提出了Bucket-QR-MAX,它使用SimHash进行离散化,并保持了分解的结构。

关键创新:该论文最重要的技术创新点在于提出了QR-MAX算法,这是第一个针对离散动作NMRDPs的基于模型的强化学习算法,它利用奖励机器将马尔可夫转移学习与非马尔可夫奖励处理分解开来,并证明了其PAC收敛性。此外,Bucket-QR-MAX通过SimHash进行离散化,避免了手动网格划分或函数逼近,提高了算法的适用性。

关键设计:QR-MAX算法的关键设计包括:1) 使用Q-learning来学习最优策略;2) 使用奖励机器来建模非马尔可夫奖励函数;3) 使用模型学习来提高样本效率;4) 对于连续状态空间,使用SimHash进行离散化。算法的具体参数设置包括学习率、折扣因子、探索率等。损失函数主要包括转移模型的预测误差和Q值的更新误差。网络结构方面,转移模型可以使用简单的查表法或者更复杂的神经网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,QR-MAX算法在样本效率方面显著优于现有的基于模型的强化学习方法。在复杂度不断增加的环境中,QR-MAX能够更快地找到最优策略,并且具有更高的鲁棒性。例如,在某个特定环境中,QR-MAX所需的样本数量比其他算法减少了50%以上,并且能够稳定地收敛到最优策略,而其他算法则容易陷入局部最优。

🎯 应用场景

该研究成果可应用于需要考虑历史信息的决策问题,例如机器人导航、任务规划、游戏AI等。在这些场景中,智能体的成功不仅取决于当前状态,还取决于之前的行为序列。该算法的实际价值在于提高样本效率和策略优化鲁棒性,降低训练成本,加速智能体的部署。未来,该方法可以进一步扩展到更复杂的环境和任务中,例如多智能体协作、部分可观测环境等。

📄 摘要(原文)

Many practical decision-making problems involve tasks whose success depends on the entire system history, rather than on achieving a state with desired properties. Markovian Reinforcement Learning (RL) approaches are not suitable for such tasks, while RL with non-Markovian reward decision processes (NMRDPs) enables agents to tackle temporal-dependency tasks. This approach has long been known to lack formal guarantees on both (near-)optimality and sample efficiency. We contribute to solving both issues with QR-MAX, a novel model-based algorithm for discrete NMRDPs that factorizes Markovian transition learning from non-Markovian reward handling via reward machines. To the best of our knowledge, this is the first model-based RL algorithm for discrete-action NMRDPs that exploits this factorization to obtain PAC convergence to $\varepsilon$-optimal policies with polynomial sample complexity. We then extend QR-MAX to continuous state spaces with Bucket-QR-MAX, a SimHash-based discretiser that preserves the same factorized structure and achieves fast and stable learning without manual gridding or function approximation. We experimentally compare our method with modern state-of-the-art model-based RL approaches on environments of increasing complexity, showing a significant improvement in sample efficiency and increased robustness in finding optimal policies.