Sequential Multi-objective Multi-agent Reinforcement Learning Approach for Predictive Maintenance
作者: Yan Chen, Cheng Liu
分类: eess.SY
发布日期: 2025-02-04
💡 一句话要点
提出SMOMA-PPO框架以优化预测性维护中的多目标决策
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 预测性维护 多目标优化 多智能体强化学习 剩余使用寿命 门控循环单元 量化回归 维护成本降低
📋 核心要点
- 现有的预测性维护方法未能综合考虑检查成本,导致维护决策不够优化。
- 论文提出了SMOMA-PPO算法,通过多智能体强化学习解决多目标优化问题,兼顾RUL最小化与检查间隔最大化。
- 实验结果显示,结合GRP模型后,平均RUL减少15%,检查间隔增加近10%,维护成本显著降低。
📝 摘要(中文)
现有的预测性维护方法通常仅关注系统组件的更换,而忽视了检查所带来的成本。本文提出了一种新的框架,利用多智能体强化学习(MARL)来同时最小化剩余使用寿命(RUL)和最大化检查间隔。通过引入序列多目标多智能体近端策略优化(SMOMA-PPO)算法,并结合门控循环单元(GRU)和量化回归,开发了基于GRU的RUL预测模型(GRP)。实验结果表明,GRP显著提高了系统后期的RUL预测准确性,并在SMOMA-PPO中应用后,实现了平均RUL减少15%、检查间隔增加近10%及整体维护成本降低的效果。该研究为多目标维护规划提供了新的视角,有效提升了系统可靠性并降低了维护费用。
🔬 方法详解
问题定义:本文旨在解决现有预测性维护方法未能考虑检查成本的问题,导致维护决策不够全面和有效。现有方法往往只关注组件更换,而忽视了检查的经济性。
核心思路:论文提出的SMOMA-PPO算法通过多智能体强化学习,能够同时优化剩余使用寿命(RUL)和检查间隔,解决了传统MARL在处理相互约束的多目标问题时的局限性。
技术框架:整体框架包括两个主要模块:首先是GRU-based RUL预测模型(GRP),用于提供准确的RUL信息;其次是SMOMA-PPO算法,利用多智能体进行决策优化。
关键创新:最重要的创新在于引入了序列多目标多智能体近端策略优化(SMOMA-PPO)算法,能够有效处理多目标优化中的序列约束问题,与传统方法相比,提供了更灵活的决策机制。
关键设计:在GRP模型中,采用了门控循环单元(GRU)来捕捉时间序列数据的动态特征,同时结合量化回归和概率分布拟合,以提高RUL预测的准确性。SMOMA-PPO算法则通过设计特定的奖励机制来平衡两个目标的优化。
📊 实验亮点
实验结果表明,GRP模型在系统后期的RUL预测准确性上显著优于现有方法,结合SMOMA-PPO后,平均RUL减少了15%,检查间隔增加了近10%,整体维护成本显著降低。这些结果验证了所提方法的有效性和实用性。
🎯 应用场景
该研究的潜在应用领域包括航空、制造业及其他需要进行设备维护的行业。通过优化维护决策,企业可以有效降低维护成本,提高设备的可靠性和使用效率,进而提升整体运营效益。未来,该方法可扩展至更复杂的多目标优化场景,具有广泛的应用前景。
📄 摘要(原文)
Existing predictive maintenance (PdM) methods typically focus solely on whether to replace system components without considering the costs incurred by inspection. However, a well-considered approach should be able to minimize Remaining Useful Life (RUL) at engine replacement while maximizing inspection interval. To achieve this, multi-agent reinforcement learning (MARL) can be introduced. However, due to the sequential and mutually constraining nature of these 2 objectives, conventional MARL is not applicable. Therefore, this paper introduces a novel framework and develops a Sequential Multi-objective Multi-agent Proximal Policy Optimization (SMOMA-PPO) algorithm. Furthermore, to provide comprehensive and effective degradation information to RL agents, we also employed Gated Recurrent Unit, quantile regression, and probability distribution fitting to develop a GRU-based RUL Prediction (GRP) model. Experiments demonstrate that the GRP method significantly improves the accuracy of RUL predictions in the later stages of system operation compared to existing methods. When incorporating its output into SMOMA-PPO, we achieve at least a 15% reduction in average RUL without unscheduled replacements (UR), nearly a 10% increase in inspection interval, and an overall decrease in maintenance costs. Importantly, our approach offers a new perspective for addressing multi-objective maintenance planning with sequential constraints, effectively enhancing system reliability and reducing maintenance expenses.