Physics-Guided Tiny-Mamba Transformer for Reliability-Aware Early Fault Warning

📄 arXiv: 2601.21293v1 📥 PDF

作者: Changyu Li, Dingcheng Huang, Kexuan Yao, Xiaoya Ni, Lijuan Shen, Fei Luo

分类: cs.LG, cs.AI

发布日期: 2026-01-29

备注: Submitted to IEEE Transactions on Reliability


💡 一句话要点

提出物理引导的Tiny-Mamba Transformer以解决旋转机械早期故障预警问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 故障预警 旋转机械 深度学习 物理引导 极值理论 健康管理 在线监测

📋 核心要点

  1. 现有的旋转机械故障预警方法在非平稳操作条件和严重类别不平衡下,准确性和可靠性不足。
  2. 本文提出的PG-TMT模型结合物理知识,通过三分支编码器有效捕捉微瞬态和长程动态,提供可靠的早期警报。
  3. 在多个数据集上,PG-TMT实现了更高的精确率-召回率AUC和更短的检测时间,表现出强大的跨域迁移能力。

📝 摘要(中文)

针对旋转机械的可靠性预警,本文提出了一种物理引导的Tiny-Mamba Transformer(PG-TMT),旨在提供在非平稳操作条件下仍能保持准确性的早期警报信号。该模型通过深度可分离卷积捕捉微瞬态,结合状态空间分支和轻量级局部Transformer,能够有效建模长程动态和跨通道共振。同时,利用极值理论(EVT)确保决策的可靠性,抑制误报率。实验结果表明,PG-TMT在多个数据集上表现出更高的精确率-召回率AUC和更短的检测时间,具有良好的跨域迁移能力。

🔬 方法详解

问题定义:本文旨在解决旋转机械的早期故障预警问题,现有方法在非平稳操作条件、领域转移和类别不平衡情况下,准确性和可靠性较低,误报率高。

核心思路:PG-TMT模型通过物理引导的设计,结合深度可分离卷积、状态空间建模和轻量级Transformer,旨在捕捉微瞬态和长程动态,从而提高故障预警的准确性和可靠性。

技术框架:PG-TMT采用三分支结构,包括深度可分离卷积支路用于捕捉微瞬态,Tiny-Mamba状态空间支路用于建模长程动态,轻量级Transformer用于编码跨通道共振,整体架构支持在线条件监测。

关键创新:PG-TMT的主要创新在于将物理知识与深度学习模型相结合,利用分析的时间-频谱映射和极值理论(EVT)来提高决策的可靠性和可解释性,这与现有方法的纯数据驱动方式有本质区别。

关键设计:模型设计中,采用了深度可分离卷积以减少参数量,极值理论用于建模健康评分的超越,设定了双阈值滞后机制以抑制误报,确保在目标误报强度下实现可靠的故障预警。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PG-TMT在CWRU、Paderborn、XJTU-SY等多个数据集上表现出色,精确率-召回率AUC显著提高,且在匹配的误报强度下,检测时间更短,显示出强大的跨域迁移能力,验证了其在实际应用中的有效性。

🎯 应用场景

该研究可广泛应用于旋转机械的健康管理和故障预测,尤其是在工业设备、航空航天和汽车等领域。通过提供可靠的早期预警,能够有效降低设备故障风险,延长设备使用寿命,提升生产效率。未来,PG-TMT有潜力在其他领域的故障检测和预警系统中得到应用。

📄 摘要(原文)

Reliability-centered prognostics for rotating machinery requires early warning signals that remain accurate under nonstationary operating conditions, domain shifts across speed/load/sensors, and severe class imbalance, while keeping the false-alarm rate small and predictable. We propose the Physics-Guided Tiny-Mamba Transformer (PG-TMT), a compact tri-branch encoder tailored for online condition monitoring. A depthwise-separable convolutional stem captures micro-transients, a Tiny-Mamba state-space branch models near-linear long-range dynamics, and a lightweight local Transformer encodes cross-channel resonances. We derive an analytic temporal-to-spectral mapping that ties the model's attention spectrum to classical bearing fault-order bands, yielding a band-alignment score that quantifies physical plausibility and provides physics-grounded explanations. To ensure decision reliability, healthy-score exceedances are modeled with extreme-value theory (EVT), which yields an on-threshold achieving a target false-alarm intensity (events/hour); a dual-threshold hysteresis with a minimum hold time further suppresses chatter. Under a leakage-free streaming protocol with right-censoring of missed detections on CWRU, Paderborn, XJTU-SY, and an industrial pilot, PG-TMT attains higher precision-recall AUC (primary under imbalance), competitive or better ROC AUC, and shorter mean time-to-detect at matched false-alarm intensity, together with strong cross-domain transfer. By coupling physics-aligned representations with EVT-calibrated decision rules, PG-TMT delivers calibrated, interpretable, and deployment-ready early warnings for reliability-centric prognostics and health management.