MetaCURL: Non-stationary Concave Utility Reinforcement Learning

📄 arXiv: 2405.19807v1 📥 PDF

作者: Bianca Marin Moreno, Margaux Brégère, Pierre Gaillard, Nadia Oudjane

分类: cs.LG, math.PR, math.ST, stat.ML

发布日期: 2024-05-30


💡 一句话要点

提出MetaCURL算法,解决非平稳MDP中的凹效用强化学习问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 非平稳强化学习 凹效用强化学习 元学习 马尔可夫决策过程 动态后悔

📋 核心要点

  1. 传统强化学习方法难以处理非平稳环境下的凹效用强化学习问题,因为环境变化破坏了贝尔曼方程的有效性。
  2. MetaCURL算法通过元学习框架,集成多个黑盒算法实例,利用睡眠专家机制,有效应对环境的非平稳性。
  3. 在部分信息条件下,MetaCURL算法在非平稳MDP中实现了最优动态后悔,无需预先了解MDP的变化情况。

📝 摘要(中文)

本文研究了非平稳环境(损失和概率转移变化)中,无环马尔可夫决策过程(MDP)的在线学习问题。重点关注凹效用强化学习(CURL)问题,它是经典强化学习的扩展,用于处理由智能体策略引起的状态-动作分布中的凸性能指标。虽然许多机器学习问题可以被表述为CURL,但其非线性特性使得传统的贝尔曼方程失效。尽管最近有一些针对经典CURL的解决方案,但没有一个能够解决非平稳MDP。本文提出了MetaCURL,这是第一个用于非平稳MDP的CURL算法。它采用元算法,在不同时间间隔上运行多个黑盒算法实例,并通过睡眠专家框架聚合输出。关键障碍是由于MDP不确定性导致的部分信息。在概率转移的部分信息下(不确定性和非平稳性仅来自外部噪声,独立于智能体状态-动作对),我们在没有先验MDP变化知识的情况下实现了最优动态后悔。与强化学习方法不同,MetaCURL处理完全对抗性损失,而不仅仅是随机损失。我们相信我们使用专家管理非平稳性的方法可能对强化学习社区有价值。

🔬 方法详解

问题定义:论文旨在解决非平稳马尔可夫决策过程(MDP)中的凹效用强化学习(CURL)问题。传统的强化学习方法,包括已有的CURL算法,在环境动态变化时性能显著下降,因为它们依赖于静态的贝尔曼方程。现有方法无法有效处理损失函数和状态转移概率随时间变化的情况,导致策略学习的次优性。

核心思路:MetaCURL的核心思路是利用元学习框架,将多个强化学习算法实例作为“专家”,在不同的时间段内并行运行。通过“睡眠专家”机制,动态地选择和聚合这些专家的输出,从而适应环境的变化。这种方法避免了直接求解复杂的非平稳贝尔曼方程,而是通过集成多个局部最优策略来逼近全局最优策略。

技术框架:MetaCURL的整体框架包含以下几个主要模块: 1. 黑盒算法实例:多个独立的强化学习算法实例,每个实例在不同的时间窗口内学习策略。 2. 睡眠专家框架:一个元学习算法,负责根据每个专家的历史表现,动态地分配权重,并选择最佳的专家组合。 3. 环境交互模块:智能体与非平稳MDP环境进行交互,收集经验数据。 4. 策略聚合模块:将选定的专家的策略进行聚合,生成最终的策略。

关键创新:MetaCURL的关键创新在于其使用元学习框架来处理非平稳性。与传统的强化学习方法不同,MetaCURL不试图直接学习一个适应所有环境状态的策略,而是通过集成多个在不同环境状态下表现良好的策略来实现自适应。此外,MetaCURL能够处理完全对抗性的损失,而不仅仅是随机损失,这使其在更广泛的应用场景中具有优势。

关键设计:MetaCURL的关键设计包括: 1. 专家选择策略:睡眠专家算法,根据每个专家的累积损失来动态调整其权重。 2. 时间窗口划分:将整个学习过程划分为多个时间窗口,每个专家在不同的时间窗口内进行学习。 3. 策略聚合方法:可以使用简单的加权平均或者更复杂的策略融合方法来聚合专家的策略。 4. 损失函数设计:根据具体的CURL问题,设计合适的凹效用函数作为损失函数。

🖼️ 关键图片

img_0

📊 实验亮点

MetaCURL算法在非平稳MDP中实现了最优动态后悔,无需预先了解MDP的变化情况。与传统的强化学习方法相比,MetaCURL能够更好地适应环境的变化,提高智能体的学习效率和性能。论文通过实验验证了MetaCURL算法的有效性,并与其他基线算法进行了比较,结果表明MetaCURL在非平稳环境下的性能优于其他算法。

🎯 应用场景

MetaCURL算法适用于环境动态变化的强化学习任务,例如:机器人导航、金融交易、智能交通控制等。在这些场景中,环境的非平稳性使得传统的强化学习方法难以取得良好的效果。MetaCURL通过元学习的方式,能够有效地适应环境的变化,提高智能体的学习效率和性能。未来,MetaCURL可以应用于更复杂的非平稳环境中,例如:多智能体系统、人机协作等。

📄 摘要(原文)

We explore online learning in episodic loop-free Markov decision processes on non-stationary environments (changing losses and probability transitions). Our focus is on the Concave Utility Reinforcement Learning problem (CURL), an extension of classical RL for handling convex performance criteria in state-action distributions induced by agent policies. While various machine learning problems can be written as CURL, its non-linearity invalidates traditional Bellman equations. Despite recent solutions to classical CURL, none address non-stationary MDPs. This paper introduces MetaCURL, the first CURL algorithm for non-stationary MDPs. It employs a meta-algorithm running multiple black-box algorithms instances over different intervals, aggregating outputs via a sleeping expert framework. The key hurdle is partial information due to MDP uncertainty. Under partial information on the probability transitions (uncertainty and non-stationarity coming only from external noise, independent of agent state-action pairs), we achieve optimal dynamic regret without prior knowledge of MDP changes. Unlike approaches for RL, MetaCURL handles full adversarial losses, not just stochastic ones. We believe our approach for managing non-stationarity with experts can be of interest to the RL community.