A Harmonic Mean Formulation of Average Reward Reinforcement Learning in SMDPs

📄 arXiv: 2605.04880v1 📥 PDF

作者: Erel Shtossel, Alicia Vidler, Uri Shaham, Gal A. Kaminka

分类: cs.LG, cs.AI

发布日期: 2026-05-06


💡 一句话要点

提出基于调和平均的平均奖励强化学习算法,解决SMDPs中非稳态问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 平均奖励强化学习 半马尔可夫决策过程 调和平均 非稳态环境 无模型学习

📋 核心要点

  1. 现有平均奖励强化学习算法在非稳态SMDPs中,通过优化奖励与持续时间的比率,可能导致不正确的结果。
  2. 论文提出一种改进的调和平均算子,即使在奖励和持续时间非稳态的情况下,也能准确计算奖励率。
  3. 实验结果表明,该算法在SMDPs中表现出良好的性能,并对非稳态奖励和持续时间分布具有鲁棒性。

📝 摘要(中文)

近期的研究重新燃起了人们对无限时域、非片段式(持续性)任务中无折扣平均奖励强化学习算法的兴趣。半马尔可夫决策过程(SMDPs)尤其引人关注。在SMDPs中,离散动作随机地产生奖励和持续时间,目标是优化平均奖励率。现有的算法通过优化奖励与持续时间的比率来实现这一点。然而,当奖励和持续时间是非稳态的(在无限时域中)时,这种方法可能不正确。本文提出了一种新颖的改进调和平均算子,即使在这种条件下也能正确计算奖励率。这产生了一种可以与SMDPs一起使用的无模型学习算法,同时保持了对随时间变化的非稳态奖励和持续时间分布的鲁棒性。我们证明了改进的调和平均算子的理论性质,并通过实验证明了其相对于现有算法的有效性。

🔬 方法详解

问题定义:论文旨在解决半马尔可夫决策过程(SMDPs)中,当奖励和持续时间分布随时间变化(非稳态)时,现有平均奖励强化学习算法无法准确计算奖励率的问题。现有方法通常优化奖励与持续时间的比率,但在非稳态环境下,这种方法会失效。

核心思路:论文的核心思路是引入一种改进的调和平均算子来计算奖励率。调和平均对较小的值更敏感,因此可以更准确地反映在非稳态环境中奖励和持续时间的变化。通过使用改进的调和平均,算法能够更鲁棒地处理非稳态分布,从而更准确地估计和优化平均奖励率。

技术框架:该论文提出的是一种无模型的学习算法,这意味着它不需要预先知道SMDPs的模型。整体框架包括以下几个主要步骤:1) 智能体与环境交互,执行动作并获得奖励和持续时间;2) 使用改进的调和平均算子更新奖励率的估计;3) 基于更新后的奖励率,调整策略以最大化平均奖励。该算法迭代执行这些步骤,直到策略收敛。

关键创新:论文的关键创新在于提出了改进的调和平均算子。与传统的算术平均或几何平均相比,调和平均更适合处理比率数据,尤其是在数据分布非稳态的情况下。改进的调和平均算子进一步优化了调和平均的计算方式,使其更适应SMDPs的特性,从而提高了奖励率估计的准确性。

关键设计:论文中关于改进的调和平均算子的具体数学形式是关键设计。具体的参数设置和算法实现细节在论文中应该有详细描述,但摘要中没有给出。损失函数的设计目标是最小化估计奖励率与真实奖励率之间的差异。网络结构(如果使用神经网络)的选择取决于具体的应用场景和数据规模,论文中可能给出了建议。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了改进的调和平均算子的有效性。实验结果表明,与现有的平均奖励强化学习算法相比,该算法在非稳态SMDPs中能够更准确地估计奖励率,并获得更高的平均奖励。具体的性能数据、对比基线和提升幅度需要在论文中查找。

🎯 应用场景

该研究成果可应用于各种需要长期决策优化的场景,例如机器人导航、资源管理、交通控制和金融交易等。在这些场景中,环境通常是非稳态的,奖励和持续时间分布会随时间变化。该算法的鲁棒性使其能够在这种动态环境中有效地学习和优化策略,从而提高系统的整体性能和效率。

📄 摘要(原文)

Recent research has revived and amplified interest in algorithms for undiscounted average reward reinforcement learning in infinite-horizon, non-episodic (continuing) tasks. Semi-Markov decision processes (SMDPs) are of particular interest. In SMDPs, discrete actions stochastically generate both rewards and durations, and the objective is to optimize the average reward rate. Existing algorithms approach this by optimizing the ratio of rewards to durations. However, when rewards and durations are non-stationary (in the infinite horizon), this can be incorrect. This paper presents a novel modified harmonic mean operator that correctly computes reward rates even under such conditions. This yields model-free learning algorithms that can work with SMDPs, while maintaining robustness to non-stationary reward and duration distributions over time. We prove theoretical properties of the modified harmonic mean operator, and empirically demonstrate its efficacy in comparison to existing algorithms.