Multi-Objective Deep Reinforcement Learning for Optimisation in Autonomous Systems

📄 arXiv: 2408.01188v2 📥 PDF

作者: Juan C. Rosero, Ivana Dusparic, Nicolás Cardozo

分类: cs.AI

发布日期: 2024-08-02 (更新: 2024-09-30)

备注: pages, Accepted to AI4AS 2024 workshop


💡 一句话要点

提出基于深度W学习的多目标强化学习方法,用于自治系统中运行时性能优化。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多目标强化学习 深度W学习 自治系统 运行时优化 性能优化

📋 核心要点

  1. 传统强化学习在自治系统中常需将多目标合并为单目标,预设权重影响优化效果。
  2. 论文采用深度W学习(DWN)这种多目标强化学习技术,直接优化多个目标,避免了权重设置问题。
  3. 实验表明,DWN在多目标优化上与单目标方法效果相当,并在某些指标上表现更优。

📝 摘要(中文)

强化学习(RL)广泛应用于自治系统(AS),因为它能够在运行时进行学习,而无需环境模型或预定义动作。然而,AS中RL的大多数应用,例如基于Q学习的应用,只能优化一个目标,因此在多目标系统中需要使用预定义的权重将多个目标组合成一个单一的目标函数。现存一些多目标强化学习(MORL)技术,但它们主要应用于RL基准测试,而不是实际的AS系统。在这项工作中,我们使用一种名为深度W学习(DWN)的MORL技术,并将其应用于Emergent Web Servers示例(一种自适应服务器),以找到运行时性能优化的最佳配置。我们将DWN与两种单目标优化实现进行了比较:ε-greedy算法和深度Q网络。初步评估表明,DWN能够同时优化多个目标,结果与DQN和ε-greedy方法相似,在某些指标上表现更好,并且避免了将多个目标组合成单一效用函数相关的问题。

🔬 方法详解

问题定义:在自治系统中,常常需要同时优化多个目标,例如性能、资源利用率等。传统的强化学习方法通常只能优化单个目标,因此需要将多个目标通过加权的方式合并成一个单一的目标函数。然而,如何选择合适的权重是一个难题,不同的权重会直接影响最终的优化结果,且难以反映各个目标之间的真实关系。

核心思路:论文的核心思路是采用多目标强化学习(MORL)方法,直接学习一个策略,该策略能够同时优化多个目标,而无需将它们合并成一个单一的目标函数。具体来说,论文采用了深度W学习(DWN)算法,该算法能够学习一个策略网络,该网络能够根据不同的目标权重向量,输出相应的动作价值函数。

技术框架:整体框架包括环境交互模块、DWN智能体和评估模块。环境交互模块负责与Emergent Web Servers示例进行交互,获取状态和奖励信号。DWN智能体根据当前状态和目标权重向量,选择合适的动作。评估模块负责评估DWN智能体的性能,并提供反馈信号。

关键创新:关键创新在于将深度W学习(DWN)这种MORL技术应用于实际的自治系统,并验证了其在多目标优化方面的有效性。与传统的单目标强化学习方法相比,DWN能够直接优化多个目标,避免了权重选择的问题。

关键设计:DWN算法的关键设计包括:1)使用深度神经网络来表示策略网络;2)使用W学习算法来更新策略网络;3)使用目标权重向量来指导策略学习。具体来说,策略网络的输入是当前状态和目标权重向量,输出是每个动作的价值函数。W学习算法通过最小化预测价值函数与实际奖励之间的差异来更新策略网络。目标权重向量用于指导策略学习,使得策略能够根据不同的目标权重向量,选择相应的动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DWN在Emergent Web Servers示例中能够同时优化多个目标,并且在某些指标上表现优于传统的单目标强化学习方法(ε-greedy算法和DQN)。具体来说,DWN在响应时间和资源利用率方面取得了更好的平衡,避免了将多个目标合并成单一效用函数时可能出现的问题。虽然整体性能与DQN相当,但DWN无需手动调整权重,更具优势。

🎯 应用场景

该研究成果可应用于各种需要同时优化多个目标的自治系统,例如:云计算资源调度、机器人路径规划、智能交通控制等。通过使用多目标强化学习方法,可以更好地平衡不同目标之间的关系,从而提高系统的整体性能和效率。未来的研究可以探索更复杂的MORL算法,并将其应用于更大规模、更复杂的自治系统。

📄 摘要(原文)

Reinforcement Learning (RL) is used extensively in Autonomous Systems (AS) as it enables learning at runtime without the need for a model of the environment or predefined actions. However, most applications of RL in AS, such as those based on Q-learning, can only optimize one objective, making it necessary in multi-objective systems to combine multiple objectives in a single objective function with predefined weights. A number of Multi-Objective Reinforcement Learning (MORL) techniques exist but they have mostly been applied in RL benchmarks rather than real-world AS systems. In this work, we use a MORL technique called Deep W-Learning (DWN) and apply it to the Emergent Web Servers exemplar, a self-adaptive server, to find the optimal configuration for runtime performance optimization. We compare DWN to two single-objective optimization implementations: ε-greedy algorithm and Deep Q-Networks. Our initial evaluation shows that DWN optimizes multiple objectives simultaneously with similar results than DQN and ε-greedy approaches, having a better performance for some metrics, and avoids issues associated with combining multiple objectives into a single utility function.