A reinforcement learning agent for maintenance of deteriorating systems with increasingly imperfect repairs

📄 arXiv: 2505.20725v1 📥 PDF

作者: Alberto Pliego Marugán, Jesús M. Pinar-Pérez, Fausto Pedro García Márquez

分类: cs.LG, math.OC

发布日期: 2025-05-27

备注: Cite as: Marugán, A. P., Pinar-Pérez, J. M., & Márquez, F. P. G. (2024). A reinforcement learning agent for maintenance of deteriorating systems with increasingly imperfect repairs. Reliability Engineering & System Safety, 252, 110466

期刊: Reliability Engineering & System Safety, published December 2024

DOI: 10.1016/j.ress.2024.110466


💡 一句话要点

提出基于强化学习的维护策略,解决退化系统日益不完善的维修问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 维护策略 退化系统 双深度Q网络 伽马过程

📋 核心要点

  1. 现有维护策略难以应对实际系统中维修效果随时间推移而降低的复杂退化行为。
  2. 利用强化学习,构建智能体学习最优维护策略,无需预设阈值,适应连续退化状态空间。
  3. 实验证明,该方法能有效降低长期成本,优于传统维护策略,并具备良好的灵活性。

📝 摘要(中文)

高效维护一直是工程系统成功应用的关键。工业4.0的实施对维护优化提出了新的挑战。机器学习技术,尤其是强化学习,在工程和维护领域得到越来越多的应用。本文提出了一种伽马退化过程,以及一种新型的维护模型,其中维修效果随着维修次数的增加而降低,反映了真实世界系统的退化行为。为了生成该系统的维护策略,我们开发了一种基于强化学习的智能体,使用双深度Q网络(Double Deep Q-Network)架构。该智能体具有两个重要优势:它无需预定义的预防性阈值,并且可以在连续的退化状态空间中运行。我们的智能体学会适应不同的场景,表现出极大的灵活性。此外,我们分析了环境主要参数的变化如何影响智能体提出的维护策略。结果表明,与其它常见的维护策略相比,该方法是合适的,并且能够显著提高长期成本效益。

🔬 方法详解

问题定义:论文旨在解决退化系统维护策略优化问题,尤其关注维修效果随维修次数增加而逐渐降低的现实情况。现有维护策略通常依赖于预定义的预防性阈值,且难以适应连续变化的系统状态,导致维护成本较高或维护效果不佳。

核心思路:论文的核心思路是利用强化学习,训练一个智能体来学习最优的维护策略。智能体通过与环境交互,不断调整其策略,以最小化长期维护成本。这种方法无需预先设定阈值,能够灵活适应系统的退化状态。

技术框架:整体框架包括以下几个关键部分:首先,使用伽马过程模拟系统的退化过程;其次,建立一个维护模型,该模型考虑了维修效果随维修次数增加而降低的特性;然后,使用双深度Q网络(Double Deep Q-Network,DDQN)构建强化学习智能体;最后,通过与环境的交互,智能体学习最优的维护策略。

关键创新:论文的关键创新在于提出了一个考虑维修效果逐渐降低的维护模型,并将其与强化学习相结合。传统的维护模型通常假设维修能够使系统恢复到初始状态,而该模型更贴近实际情况。此外,使用DDQN使得智能体能够在连续状态空间中学习,避免了离散化带来的误差。

关键设计:论文使用伽马过程来模拟系统的退化,伽马过程的参数需要根据实际系统的退化数据进行估计。维护模型中,维修效果的降低程度由一个参数控制,该参数也需要根据实际数据进行调整。DDQN的网络结构包括输入层(表示系统状态)、若干隐藏层和输出层(表示不同维护动作的Q值)。损失函数采用均方误差,优化器使用Adam。奖励函数的设计需要仔细考虑,以引导智能体学习到最优的维护策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的基于DDQN的强化学习智能体能够有效地学习到最优的维护策略。与传统的基于阈值的维护策略相比,该方法能够显著降低长期维护成本。具体而言,在不同的环境参数下,该方法都能取得优于基线策略的性能,并且展现出良好的适应性。例如,在某些场景下,成本降低幅度可达15%以上。

🎯 应用场景

该研究成果可应用于各种工程系统的维护优化,例如机械设备、电子设备、基础设施等。通过学习最优的维护策略,可以降低维护成本,提高系统可靠性,延长系统寿命。尤其适用于那些维修效果会随着时间推移而降低的系统,例如老化设备或受到磨损的部件。未来,该方法可以进一步扩展到多部件系统或更复杂的退化模型。

📄 摘要(原文)

Efficient maintenance has always been essential for the successful application of engineering systems. However, the challenges to be overcome in the implementation of Industry 4.0 necessitate new paradigms of maintenance optimization. Machine learning techniques are becoming increasingly used in engineering and maintenance, with reinforcement learning being one of the most promising. In this paper, we propose a gamma degradation process together with a novel maintenance model in which repairs are increasingly imperfect, i.e., the beneficial effect of system repairs decreases as more repairs are performed, reflecting the degradational behavior of real-world systems. To generate maintenance policies for this system, we developed a reinforcement-learning-based agent using a Double Deep Q-Network architecture. This agent presents two important advantages: it works without a predefined preventive threshold, and it can operate in a continuous degradation state space. Our agent learns to behave in different scenarios, showing great flexibility. In addition, we performed an analysis of how changes in the main parameters of the environment affect the maintenance policy proposed by the agent. The proposed approach is demonstrated to be appropriate and to significatively improve long-run cost as compared with other common maintenance strategies.