Learning Rewards, Not Labels: Adversarial Inverse Reinforcement Learning for Machinery Fault Detection

作者: Dhiraj Neupane, Richard Dazeley, Mohamed Reda Bouadjenek, Sunil Aryal

分类: cs.LG, cs.AI

发布日期: 2026-02-28

💡 一句话要点

提出基于对抗逆强化学习的机械故障检测方法，无需故障标签。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机械故障检测 逆强化学习 对抗学习 无监督学习 异常检测

📋 核心要点

现有基于强化学习的机械故障检测方法未能充分利用强化学习的序列决策能力，通常将故障检测视为简单的上下文老虎机问题。
本文提出将机械故障检测建模为离线逆强化学习问题，直接从健康运行序列中学习奖励函数，无需人工设计奖励或标注故障标签。
实验结果表明，该模型能够有效区分正常和故障样本，实现早期和稳健的故障检测，并在三个基准数据集上取得了良好的性能。

📝 摘要（中文）

本文提出了一种用于机械故障检测(MFD)的离线逆强化学习框架。该框架利用强化学习(RL)的序列决策能力，将MFD问题建模为从健康运行序列中学习奖励动态的过程，避免了手动设计奖励函数和标注故障标签的需求。具体而言，采用对抗逆强化学习训练一个判别器，区分正常（专家）状态转移和策略生成的状态转移。判别器学习到的奖励函数被用作异常评分，指示偏离正常运行行为的程度。在三个失效基准数据集（HUMS2023、IMS和XJTU-SY）上的评估表明，该模型能够始终如一地为正常样本分配低异常评分，为故障样本分配高异常评分，从而实现早期和稳健的故障检测。该工作将RL的序列推理与MFD的时间结构对齐，为数据驱动工业环境中基于RL的诊断开辟了道路。

🔬 方法详解

问题定义：传统的机械故障检测方法依赖于大量的故障标签，而获取这些标签往往成本高昂且耗时。现有的基于强化学习的方法通常将故障检测视为上下文老虎机问题，忽略了机械运行的时序特性，未能充分利用强化学习的序列决策能力。因此，如何利用无标签的健康运行数据，并结合强化学习的序列建模能力，实现有效的机械故障检测是一个关键问题。

核心思路：本文的核心思路是利用对抗逆强化学习（Adversarial Inverse Reinforcement Learning, AIRL）从健康的机械运行数据中学习奖励函数，该奖励函数能够区分正常运行状态和异常运行状态。通过将机械故障检测问题转化为奖励函数的学习问题，避免了手动设计奖励函数的困难，并且无需故障标签。学习到的奖励函数可以作为异常评分，用于检测机械故障。

技术框架：该框架主要包含两个模块：策略网络和判别器网络。策略网络负责生成机械运行的状态转移序列，判别器网络负责区分专家（正常运行）的状态转移序列和策略网络生成的状态转移序列。判别器通过对抗训练的方式学习奖励函数，该奖励函数能够反映机械运行的正常状态。在故障检测阶段，将机械运行的状态转移序列输入判别器，得到相应的奖励值，作为异常评分。

关键创新：该论文的关键创新在于将对抗逆强化学习应用于机械故障检测领域，并成功地实现了无标签的故障检测。与传统的监督学习方法相比，该方法无需故障标签，降低了数据标注的成本。与现有的基于强化学习的方法相比，该方法能够更好地利用强化学习的序列建模能力，从而更准确地检测机械故障。

关键设计：判别器网络采用神经网络结构，输入为状态转移序列，输出为奖励值。损失函数采用对抗损失函数，用于训练判别器区分专家数据和策略生成的数据。策略网络可以使用任何强化学习算法进行训练，例如PPO。实验中，对奖励函数进行了归一化处理，以提高模型的稳定性和泛化能力。具体参数设置和网络结构细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

该模型在三个基准数据集（HUMS2023、IMS和XJTU-SY）上进行了评估，实验结果表明，该模型能够始终如一地为正常样本分配低异常评分，为故障样本分配高异常评分，从而实现早期和稳健的故障检测。具体的性能数据和对比基线未在摘要中详细说明，属于未知信息。

🎯 应用场景

该研究成果可应用于各种工业场景中的机械设备故障检测，例如航空发动机、风力发电机、工业机器人等。通过提前检测到潜在的故障，可以避免设备停机，减少维护成本，提高生产效率。此外，该方法无需故障标签的特性，使其更易于部署到实际应用中，具有重要的实际应用价值和广阔的应用前景。

📄 摘要（原文）

Reinforcement learning (RL) offers significant promise for machinery fault detection (MFD). However, most existing RL-based MFD approaches do not fully exploit RL's sequential decision-making strengths, often treating MFD as a simple guessing game (Contextual Bandits). To bridge this gap, we formulate MFD as an offline inverse reinforcement learning problem, where the agent learns the reward dynamics directly from healthy operational sequences, thereby bypassing the need for manual reward engineering and fault labels. Our framework employs Adversarial Inverse Reinforcement Learning to train a discriminator that distinguishes between normal (expert) and policy-generated transitions. The discriminator's learned reward serves as an anomaly score, indicating deviations from normal operating behaviour. When evaluated on three run-to-failure benchmark datasets (HUMS2023, IMS, and XJTU-SY), the model consistently assigns low anomaly scores to normal samples and high scores to faulty ones, enabling early and robust fault detection. By aligning RL's sequential reasoning with MFD's temporal structure, this work opens a path toward RL-based diagnostics in data-driven industrial settings.

Learning Rewards, Not Labels: Adversarial Inverse Reinforcement Learning for Machinery Fault Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理