A Novel Multimodal RUL Framework for Remaining Useful Life Estimation with Layer-wise Explanations

📄 arXiv: 2512.06708v1 📥 PDF

作者: Waleed Razzaq, Yun-Bo Zhao

分类: cs.LG, cs.AI

发布日期: 2025-12-07


💡 一句话要点

提出一种多模态剩余寿命预测框架,结合分层解释性,提升滚动轴承剩余寿命预测的准确性和可信度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 剩余寿命预测 多模态融合 滚动轴承 分层相关性传播 可解释性 振动信号处理 深度学习

📋 核心要点

  1. 现有RUL预测方法泛化性差、鲁棒性低,且对数据需求量大,缺乏可解释性,难以满足实际工业需求。
  2. 提出一种多模态RUL框架,融合振动信号的图像表示和时频表示,利用扩张卷积和LSTM提取时空退化特征。
  3. 实验结果表明,该方法在基准数据集上优于现有方法,且所需训练数据更少,同时具有良好的抗噪声性和可解释性。

📝 摘要(中文)

机械系统的剩余寿命(RUL)预测在预测与健康管理(PHM)中至关重要。滚动轴承是机械故障的最常见原因之一,因此需要可靠的RUL预测方法。现有方法通常存在泛化能力差、鲁棒性不足、数据需求高和可解释性有限等问题。本文提出了一种新的多模态RUL框架,该框架联合利用多通道非平稳振动信号的图像表示(ImR)和时频表示(TFR)。该架构包含三个分支:(1) ImR分支和(2) TFR分支,均采用多个带有残差连接的扩张卷积块来提取空间退化特征;(3) 一个融合分支,将这些特征连接起来并输入到LSTM中以建模时间退化模式。随后,多头注意力机制强调显著特征,然后通过线性层进行最终的RUL回归。为了实现有效的多模态学习,振动信号通过Bresenham直线算法转换为ImR,并使用连续小波变换转换为TFR。我们还引入了多模态分层相关性传播(multimodal-LRP),这是一种定制的可解释性技术,可显著提高模型透明度。该方法在XJTU-SY和PRONOSTIA基准数据集上进行了验证。结果表明,我们的方法在已见和未见的操作条件下均能匹配或超过最先进的基线,同时在XJTU-SY上需要减少约28%的训练数据,在PRONOSTIA上减少约48%。该模型表现出很强的抗噪声能力,并且多模态LRP可视化证实了预测的可解释性和可信度,使该框架非常适合实际工业部署。

🔬 方法详解

问题定义:论文旨在解决滚动轴承剩余寿命(RUL)预测问题。现有方法通常依赖单一类型的数据,难以充分捕捉轴承的退化信息,并且模型的可解释性较差,难以在实际工业环境中应用。

核心思路:论文的核心思路是利用多模态信息融合,将振动信号转换为图像表示(ImR)和时频表示(TFR),分别提取空间和时间上的退化特征,并结合注意力机制和可解释性方法,提高RUL预测的准确性和可信度。这种多模态融合能够更全面地捕捉轴承的退化信息,提高模型的鲁棒性和泛化能力。

技术框架:该框架包含三个主要分支:ImR分支、TFR分支和融合分支。ImR分支和TFR分支分别使用多个扩张卷积块和残差连接提取空间退化特征。融合分支将两个分支提取的特征进行拼接,然后输入到LSTM网络中,以建模时间退化模式。最后,使用多头注意力机制强调重要特征,并通过线性层进行RUL回归。

关键创新:该论文的关键创新在于以下几个方面:1) 提出了一种多模态融合的RUL预测框架,有效结合了振动信号的图像表示和时频表示。2) 引入了多模态分层相关性传播(multimodal-LRP)方法,提高了模型的可解释性。3) 实验结果表明,该方法在数据需求量更少的情况下,能够达到或超过现有方法的性能。

关键设计:在ImR分支中,振动信号通过Bresenham直线算法转换为图像。在TFR分支中,使用连续小波变换将振动信号转换为时频表示。扩张卷积块采用不同的扩张率,以捕捉不同尺度的特征。LSTM网络用于建模时间序列数据。多头注意力机制用于选择重要的特征。损失函数采用均方误差(MSE)或其他回归损失函数。

🖼️ 关键图片

img_0

📊 实验亮点

该方法在XJTU-SY和PRONOSTIA数据集上进行了验证,结果表明,在已见和未见的操作条件下,该方法均能匹配或超过最先进的基线方法。更重要的是,该方法在XJTU-SY数据集上仅需约72%的训练数据,在PRONOSTIA数据集上仅需约52%的训练数据,同时具有良好的抗噪声性和可解释性。

🎯 应用场景

该研究成果可应用于工业设备的状态监测和故障预测,例如风力发电机、航空发动机等关键设备的滚动轴承健康管理。通过准确预测剩余寿命,可以提前进行维护,避免意外停机,降低维护成本,提高设备运行效率,具有重要的经济和社会价值。

📄 摘要(原文)

Estimating the Remaining Useful Life (RUL) of mechanical systems is pivotal in Prognostics and Health Management (PHM). Rolling-element bearings are among the most frequent causes of machinery failure, highlighting the need for robust RUL estimation methods. Existing approaches often suffer from poor generalization, lack of robustness, high data demands, and limited interpretability. This paper proposes a novel multimodal-RUL framework that jointly leverages image representations (ImR) and time-frequency representations (TFR) of multichannel, nonstationary vibration signals. The architecture comprises three branches: (1) an ImR branch and (2) a TFR branch, both employing multiple dilated convolutional blocks with residual connections to extract spatial degradation features; and (3) a fusion branch that concatenates these features and feeds them into an LSTM to model temporal degradation patterns. A multi-head attention mechanism subsequently emphasizes salient features, followed by linear layers for final RUL regression. To enable effective multimodal learning, vibration signals are converted into ImR via the Bresenham line algorithm and into TFR using Continuous Wavelet Transform. We also introduce multimodal Layer-wise Relevance Propagation (multimodal-LRP), a tailored explainability technique that significantly enhances model transparency. The approach is validated on the XJTU-SY and PRONOSTIA benchmark datasets. Results show that our method matches or surpasses state-of-the-art baselines under both seen and unseen operating conditions, while requiring ~28 % less training data on XJTU-SY and ~48 % less on PRONOSTIA. The model exhibits strong noise resilience, and multimodal-LRP visualizations confirm the interpretability and trustworthiness of predictions, making the framework highly suitable for real-world industrial deployment.