C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front

📄 arXiv: 2410.02236v2 📥 PDF

作者: Ruohong Liu, Yuxin Pan, Linjie Xu, Lei Song, Jiang Bian, Pengcheng You, Yize Chen

分类: cs.LG, eess.SY

发布日期: 2024-10-03 (更新: 2025-05-07)

备注: Published as a conference paper at ICLR 2025. Code available at https://github.com/RuohLiuq/C-MORL


💡 一句话要点

提出C-MORL算法,高效发现多目标强化学习中的帕累托前沿

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多目标强化学习 帕累托前沿 约束优化 策略优化 机器人控制

📋 核心要点

  1. 传统MORL方法在帕累托前沿的发现效率上存在不足,且难以扩展到高维状态和偏好空间。
  2. C-MORL算法通过两阶段策略,先并行优化个体偏好,再利用约束优化填补帕累托前沿的空缺。
  3. 实验表明,C-MORL在离散和连续控制任务中,尤其是在多目标情况下,性能优于现有MORL方法。

📝 摘要(中文)

多目标强化学习(MORL)擅长处理涉及多个标准且偏好快速变化的任务,即使对于未见过的偏好也是如此。然而,以往的MORL方法通常通过多次迭代训练,专门针对采样的偏好向量生成固定的策略集或偏好条件策略,无法确保帕累托前沿的有效发现。此外,将偏好整合到策略或价值函数的输入中会带来可扩展性挑战,尤其是在状态和偏好空间的维度增加时,这会使学习过程复杂化,并阻碍算法在更复杂任务上的性能。为了解决这些问题,我们提出了一种名为约束MORL(C-MORL)的两阶段帕累托前沿发现算法,它充当了约束策略优化和MORL之间的无缝桥梁。具体而言,在初始化阶段并行训练一组策略,每个策略都针对其对多个目标的个体偏好进行优化。然后,为了填补帕累托前沿中的剩余空缺,采用约束优化步骤来最大化一个目标,同时约束其他目标超过预定义的阈值。经验表明,与最近的MORL方法相比,我们的算法在离散和连续控制任务中,在高容量、预期效用和稀疏性方面都取得了更一致和卓越的性能,尤其是在目标数量众多时(在我们的实验中最多可达9个目标)。

🔬 方法详解

问题定义:现有的多目标强化学习方法在发现帕累托前沿时效率较低,尤其是在高维状态空间和偏好空间中,将偏好直接作为策略或价值函数的输入会导致维度灾难,难以扩展到复杂任务。此外,已有的方法通常需要多次迭代训练,针对特定偏好向量进行优化,无法保证帕累托前沿的完整性和效率。

核心思路:C-MORL的核心思路是将多目标强化学习问题分解为两个阶段:初始化阶段和约束优化阶段。初始化阶段并行训练一组策略,每个策略针对不同的偏好进行优化,快速覆盖帕累托前沿的大部分区域。约束优化阶段则通过约束其他目标,最大化剩余目标,从而填补帕累托前沿的空缺,提高帕累托前沿的完整性和准确性。这种两阶段方法能够更有效地探索帕累托前沿,并提高算法的性能。

技术框架:C-MORL算法包含两个主要阶段:初始化阶段和约束优化阶段。在初始化阶段,算法并行训练一组策略,每个策略对应一个特定的偏好向量。这些策略通过标准的强化学习算法(如PPO)进行训练,目标是最大化其对应偏好下的奖励。在约束优化阶段,算法选择帕累托前沿上尚未被覆盖的区域,并利用约束优化方法来最大化一个目标,同时约束其他目标超过预定义的阈值。这个过程迭代进行,直到帕累托前沿被充分覆盖。

关键创新:C-MORL的关键创新在于将约束策略优化与多目标强化学习相结合,提出了一种两阶段的帕累托前沿发现算法。与传统的MORL方法相比,C-MORL能够更有效地探索帕累托前沿,并提高算法的性能。此外,C-MORL通过并行训练和约束优化,避免了直接将偏好作为策略或价值函数的输入,从而解决了维度灾难问题,提高了算法的可扩展性。

关键设计:C-MORL的关键设计包括:1) 初始化阶段的偏好向量采样策略,需要保证采样的偏好向量能够覆盖整个偏好空间;2) 约束优化阶段的阈值设置,需要根据具体任务进行调整,以保证帕累托前沿的完整性和准确性;3) 约束优化问题的求解方法,可以使用现有的约束优化算法,如拉格朗日乘子法或罚函数法;4) 策略网络的结构,可以使用多层感知机或循环神经网络等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,C-MORL算法在多个离散和连续控制任务中,均优于现有的MORL算法。尤其是在目标数量较多(最多9个目标)的情况下,C-MORL在超体积(Hypervolume)、预期效用(Expected Utility)和稀疏性(Sparsity)等指标上均取得了显著提升,证明了其在高维目标空间中的有效性。

🎯 应用场景

C-MORL算法可应用于各种需要权衡多个目标的决策问题,例如机器人控制、资源分配、自动驾驶、推荐系统等。在机器人控制中,可以同时优化机器人的速度、能耗和稳定性。在资源分配中,可以同时考虑公平性、效率和可持续性。该研究有助于开发更智能、更灵活的决策系统,以适应复杂多变的环境。

📄 摘要(原文)

Multi-objective reinforcement learning (MORL) excels at handling rapidly changing preferences in tasks that involve multiple criteria, even for unseen preferences. However, previous dominating MORL methods typically generate a fixed policy set or preference-conditioned policy through multiple training iterations exclusively for sampled preference vectors, and cannot ensure the efficient discovery of the Pareto front. Furthermore, integrating preferences into the input of policy or value functions presents scalability challenges, in particular as the dimension of the state and preference space grow, which can complicate the learning process and hinder the algorithm's performance on more complex tasks. To address these issues, we propose a two-stage Pareto front discovery algorithm called Constrained MORL (C-MORL), which serves as a seamless bridge between constrained policy optimization and MORL. Concretely, a set of policies is trained in parallel in the initialization stage, with each optimized towards its individual preference over the multiple objectives. Then, to fill the remaining vacancies in the Pareto front, the constrained optimization steps are employed to maximize one objective while constraining the other objectives to exceed a predefined threshold. Empirically, compared to recent advancements in MORL methods, our algorithm achieves more consistent and superior performances in terms of hypervolume, expected utility, and sparsity on both discrete and continuous control tasks, especially with numerous objectives (up to nine objectives in our experiments).