Semi-supervised Anomaly Detection via Adaptive Reinforcement Learning-Enabled Method with Causal Inference for Sensor Signals

📄 arXiv: 2405.06925v2 📥 PDF

作者: Xiangwei Chen, Ruliang Xiaoa, Zhixia Zeng, Zhipeng Qiu, Shi Zhang, Xin Du

分类: cs.LG, cs.AI

发布日期: 2024-05-11 (更新: 2024-05-16)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Tri-CRLAD,利用因果推理和自适应强化学习进行半监督传感器信号异常检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 半监督学习 异常检测 因果推理 强化学习 传感器信号 智能制造 反事实推理

📋 核心要点

  1. 现有传感器信号异常检测方法忽略因果关系,易受混淆因素影响,导致误判。
  2. 提出Tri-CRLAD模型,结合因果推理提取因果特征,并采用三重决策支持机制增强模型灵活性。
  3. 实验结果表明,Tri-CRLAD在半监督异常检测中,异常检测稳定性提升高达23%。

📝 摘要(中文)

针对智能制造中传感器信号的半监督异常检测问题,现有方法过度依赖数据相关性,忽略因果关系,易受混淆因素影响。同时,现有基于强化学习的方法存在先验知识利用不足、模型灵活性欠缺以及环境交互中奖励反馈不足等问题。本文创新性地构建了一个反事实因果强化学习模型,称为三重辅助因果强化学习异常检测器(Tri-CRLAD)。该模型利用因果推理提取数据中的内在因果特征,增强智能体对先验知识的利用,提高泛化能力。此外,Tri-CRLAD具有三重决策支持机制,包括基于历史相似性的采样策略、自适应阈值平滑调整策略和自适应决策奖励机制。这些机制进一步增强了模型的灵活性和泛化能力,使其能够有效地响应各种复杂和动态变化的环境。在七个不同的传感器信号数据集上的实验结果表明,Tri-CRLAD优于九种最先进的基线方法。值得注意的是,Tri-CRLAD在极少已知异常样本的情况下,异常检测稳定性提高了23%,突显了其在半监督异常检测场景中的潜力。代码已开源。

🔬 方法详解

问题定义:论文旨在解决传感器信号半监督异常检测问题。现有方法主要依赖数据相关性,忽略了数据间的因果关系,容易受到混淆因素的影响,导致误判。此外,现有的基于强化学习的异常检测方法存在先验知识利用不足、模型灵活性欠缺以及环境交互中奖励反馈不足等问题,难以适应复杂动态的环境。

核心思路:论文的核心思路是结合因果推理和强化学习,构建一个能够有效利用先验知识、适应复杂环境的异常检测模型。通过因果推理提取数据中的内在因果特征,增强智能体对环境的理解和泛化能力。同时,设计三重决策支持机制,提高模型的灵活性和鲁棒性。

技术框架:Tri-CRLAD模型主要包含以下几个模块: 1. 因果推理模块:用于从传感器信号数据中提取内在的因果特征,消除混淆因素的影响。 2. 强化学习智能体:基于提取的因果特征,通过与环境的交互学习异常检测策略。 3. 三重决策支持机制:包括基于历史相似性的采样策略、自适应阈值平滑调整策略和自适应决策奖励机制,用于提高模型的灵活性和泛化能力。

关键创新:论文的关键创新在于以下几个方面: 1. 因果推理与强化学习的结合:将因果推理引入强化学习框架,利用因果关系指导异常检测,提高了模型的准确性和鲁棒性。 2. 三重决策支持机制:通过多种策略协同作用,增强了模型的灵活性和泛化能力,使其能够适应复杂动态的环境。 3. 反事实因果强化学习:通过反事实推理,更好地评估动作的因果效应,从而优化强化学习策略。

关键设计: 1. 因果推理:采用Do-calculus等方法进行因果推断,识别并消除混淆因素的影响。 2. 强化学习:使用深度Q网络(DQN)作为智能体,通过与环境的交互学习异常检测策略。状态空间为传感器信号的因果特征,动作空间为是否判定为异常。 3. 奖励函数:设计自适应决策奖励机制,根据检测结果动态调整奖励,鼓励智能体做出准确的判断。 4. 采样策略:基于历史相似性的采样策略,选择与当前状态相似的历史样本进行学习,提高学习效率。 5. 阈值调整:采用自适应阈值平滑调整策略,根据环境变化动态调整异常检测阈值,提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Tri-CRLAD在七个不同的传感器信号数据集上均优于九种最先进的基线方法。在半监督异常检测场景中,即使在极少已知异常样本的情况下,Tri-CRLAD的异常检测稳定性也提高了高达23%。这表明Tri-CRLAD在实际应用中具有很强的优势,能够有效地检测出各种类型的异常。

🎯 应用场景

该研究成果可应用于智能制造、工业物联网等领域,用于监测传感器信号,及时发现潜在的设备故障或异常事件,提高生产效率和系统可靠性。通过对传感器数据的因果分析,可以更准确地定位故障原因,为维护和优化提供指导。未来,该方法有望扩展到更复杂的工业系统和更多类型的传感器数据。

📄 摘要(原文)

Semi-supervised anomaly detection for sensor signals is critical in ensuring system reliability in smart manufacturing. However, existing methods rely heavily on data correlation, neglecting causality and leading to potential misinterpretations due to confounding factors. Moreover, while current reinforcement learning-based methods can effectively identify known and unknown anomalies with limited labeled samples, these methods still face several challenges, such as under-utilization of priori knowledge, lack of model flexibility, and deficient reward feedback during environmental interactions. To address the above problems, this paper innovatively constructs a counterfactual causal reinforcement learning model, termed Triple-Assisted Causal Reinforcement Learning Anomaly Detector (Tri-CRLAD). The model leverages causal inference to extract the intrinsic causal feature in data, enhancing the agent's utilization of prior knowledge and improving its generalization capability. In addition, Tri-CRLAD features a triple decision support mechanism, including a sampling strategy based on historical similarity, an adaptive threshold smoothing adjustment strategy, and an adaptive decision reward mechanism. These mechanisms further enhance the flexibility and generalization ability of the model, enabling it to effectively respond to various complex and dynamically changing environments. Experimental results across seven diverse sensor signal datasets demonstrate that Tri-CRLAD outperforms nine state-of-the-art baseline methods. Notably, Tri-CRLAD achieves up to a 23\% improvement in anomaly detection stability with minimal known anomaly samples, highlighting its potential in semi-supervised anomaly detection scenarios. Our code is available at https://github.com/Aoudsung/Tri-CRLAD.