Trustworthy Equipment Monitoring via Cascaded Anomaly Detection and Thermal Localization
作者: Sungwoo Kang
分类: eess.SY
发布日期: 2025-12-31 (更新: 2026-02-01)
💡 一句话要点
提出级联异常检测与热定位方法,用于提升设备监测的可靠性与可解释性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 异常检测 故障定位 多模态融合 可解释性 预测性维护
📋 核心要点
- 现有设备监测方法在融合多模态数据时,简单融合可能导致性能下降,且缺乏可解释性。
- 提出一种级联混合架构,先用随机森林进行异常检测,再用CNN进行热故障定位,提升准确性和可解释性。
- 实验表明,该方法在低噪声下优于深度学习方法,并能通过TreeSHAP和注意力热图诊断模态偏差。
📝 摘要(中文)
预测性维护需要准确的异常检测和可解释的解释。本文表明,传感器时序数据和热图像的简单多模态融合会降低性能。因此,提出了一种级联混合架构。该方法利用随机森林对统计传感器特征进行检测(F1值为94.66%),仅在检测后触发具有空间注意力的CNN进行热故障定位。严格的分析表明,基于统计特征的检测明显优于LSTM(F1值为89.57%)和端到端融合(F1值为84.79%)。然而,我们发现了一个关键的噪声交叉现象:随机森林在低噪声下表现出色,而深度学习方法在高噪声下表现出卓越的鲁棒性(σ> 0.3)。此外,我们引入了一个可解释性流程,整合了TreeSHAP和注意力热图,以诊断“模态偏差”,即融合模型不合理地偏向较弱的热输入。该工作在来自自动化运输系统的13121个真实样本上进行了验证,为模型选择提供了循证指南,证明了传统的机器学习通常优于复杂的深度学习,同时提供更好的可解释性。
🔬 方法详解
问题定义:论文旨在解决工业设备预测性维护中,如何准确检测设备异常并提供可解释的故障定位的问题。现有方法,特别是直接融合传感器时序数据和热图像的多模态方法,在实际工业噪声环境下表现不佳,且缺乏对模型决策过程的解释,难以诊断潜在的模态偏差。
核心思路:论文的核心思路是将异常检测和故障定位解耦,采用级联的方式进行处理。首先利用传统的机器学习方法(随机森林)对传感器数据进行异常检测,然后在检测到异常时,再利用深度学习方法(CNN)对热图像进行故障定位。这种解耦的设计旨在利用传统机器学习方法在低噪声环境下的优势,同时避免深度学习模型在简单融合多模态数据时可能出现的模态偏差。
技术框架:整体架构包含两个主要阶段:1) 异常检测阶段:使用随机森林对从传感器时序数据中提取的统计特征进行分类,判断设备是否出现异常。2) 故障定位阶段:当检测到异常时,使用带有空间注意力的CNN对热图像进行分析,定位故障发生的位置。TreeSHAP和注意力热图被用于提供模型决策的可解释性分析。
关键创新:论文的关键创新在于:1) 提出了一种级联的异常检测和故障定位框架,有效利用了不同模型的优势。2) 揭示了工业噪声对不同模型性能的影响,发现了随机森林在低噪声下优于深度学习的“噪声交叉现象”。3) 引入了可解释性分析流程,用于诊断多模态融合模型中的“模态偏差”问题。
关键设计:在异常检测阶段,随机森林的输入特征是基于传感器时序数据的统计特征,例如均值、方差、最大值、最小值等。在故障定位阶段,CNN采用了空间注意力机制,以突出显示热图像中与故障相关的区域。TreeSHAP被用于解释随机森林的决策过程,注意力热图被用于可视化CNN的关注区域。论文还详细分析了不同噪声水平下,随机森林和深度学习模型的性能表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在低噪声环境下,基于统计特征的随机森林异常检测方法优于LSTM和端到端融合方法,F1值达到94.66%。论文还揭示了噪声交叉现象,即在高噪声环境下,深度学习方法表现出更强的鲁棒性。此外,通过TreeSHAP和注意力热图,成功诊断了融合模型中的模态偏差问题,为模型优化提供了依据。
🎯 应用场景
该研究成果可应用于各种工业设备监测场景,例如自动化运输系统、生产线设备、电力设备等。通过准确的异常检测和可解释的故障定位,可以帮助企业实现预测性维护,减少设备停机时间,降低维护成本,提高生产效率。此外,该研究提出的模态偏差诊断方法,有助于开发更可靠的多模态融合模型。
📄 摘要(原文)
Predictive maintenance demands both accurate anomaly detection and interpretable explanations. We demonstrate that naive multimodal fusion of sensor time-series and thermal imagery can degrade performance, and instead propose a cascaded, hybrid architecture. Our approach utilizes Random Forest on statistical sensor features for detection ($94.66\%$ F1), triggering a CNN with spatial attention for thermal fault localization only post-detection. Rigorous analysis reveals that statistical feature-based detection significantly outperforms both LSTM ($89.57\%$ F1) and end-to-end fusion ($84.79\%$ F1) at typical industrial noise levels. However, we identify a critical noise crossover phenomenon: while Random Forest excels at low noise, deep learning approaches demonstrate superior resilience at high noise ($σ> 0.3$). Additionally, we introduce an explainability pipeline integrating TreeSHAP and attention heatmaps to diagnose "modality bias," where fusion models irrationally favor weaker thermal inputs. Validated on 13,121 real-world samples from automated transport systems, this work provides evidence-based guidelines for model selection, proving that traditional machine learning often surpasses complex deep learning for industrial monitoring while offering superior interpretability.