Anomalous Decision Discovery using Inverse Reinforcement Learning
作者: Ashish Bastola, Mert D. Pesé, Long Cheng, Jonathon Smereka, Abolfazl Razi
分类: cs.AI
发布日期: 2025-07-06
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于逆强化学习的异常决策发现框架以解决自动驾驶中的异常检测问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 异常检测 逆强化学习 自动驾驶 鲁棒性 泛化能力 行为识别 深度学习
📋 核心要点
- 现有异常检测方法在面对未知场景和传感器噪声时表现不佳,且依赖大量标注数据,限制了其实际应用。
- 本文提出了一种基于逆强化学习的异常检测框架,通过推断潜在驾驶意图来提高识别的稳健性。
- 实验结果显示,TRAP框架在14000多个模拟轨迹上实现了0.90的AUC和82.2%的F1-score,显著优于现有基线。
📝 摘要(中文)
异常检测在自动驾驶汽车中至关重要,通过感知系统识别不寻常行为,以避免安全隐患。现有方法多依赖预定义阈值或监督学习,面对未知场景、传感器噪声和遮挡时效果不佳,且需要大量标注数据,限制了其实际应用。为此,本文提出了一种基于逆强化学习的异常检测框架,推断潜在驾驶意图,从而实现稳健的识别。我们提出的TRAP框架通过奖励和最坏情况监督隐式学习时间信用分配,利用可变时间采样进行预训练,早期检测行为偏差。实验结果表明,该方法在14000多个模拟轨迹上表现出色,AUC达到0.90,F1-score为82.2%,在召回率和F1-score上分别超越了同类监督和无监督基线39%和12%。
🔬 方法详解
问题定义:本文旨在解决自动驾驶中异常检测的挑战,现有方法在面对未知场景和传感器噪声时效果不佳,且依赖于大量标注数据,限制了其实际应用。
核心思路:提出基于逆强化学习的异常检测框架,通过推断潜在驾驶意图来实现稳健的异常识别,特别关注噪声鲁棒性和对未知场景的泛化能力。
技术框架:整体架构包括数据采集、逆强化学习模型训练和异常检测三个主要模块。通过可变时间采样进行预训练,最大化时间到后果的时间,从而实现早期检测。
关键创新:最重要的创新在于通过奖励和最坏情况监督隐式学习时间信用分配,这与现有方法的显著区别在于不再依赖于固定的阈值或大量标注数据。
关键设计:在模型训练中,采用了可变时间采样策略,损失函数设计关注于时间信用分配,确保模型在不同噪声类型下的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,TRAP框架在14000多个模拟轨迹上实现了0.90的AUC和82.2%的F1-score,分别比同类监督和无监督基线提高了39%和12%的召回率和F1-score,展现出对多种噪声类型的鲁棒性和对未知异常类型的泛化能力。
🎯 应用场景
该研究的潜在应用领域包括自动驾驶汽车的安全系统、智能交通管理和机器人导航等。通过提高异常检测的准确性和鲁棒性,可以显著降低事故风险,提升自动驾驶技术的安全性和可靠性,具有重要的实际价值和未来影响。
📄 摘要(原文)
Anomaly detection plays a critical role in Autonomous Vehicles (AVs) by identifying unusual behaviors through perception systems that could compromise safety and lead to hazardous situations. Current approaches, which often rely on predefined thresholds or supervised learning paradigms, exhibit reduced efficacy when confronted with unseen scenarios, sensor noise, and occlusions, leading to potential safety-critical failures. Moreover, supervised methods require large annotated datasets, limiting their real-world feasibility. To address these gaps, we propose an anomaly detection framework based on Inverse Reinforcement Learning (IRL) to infer latent driving intentions from sequential perception data, thus enabling robust identification. Specifically, we present Trajectory-Reward Guided Adaptive Pre-training (TRAP), a novel IRL framework for anomaly detection, to address two critical limitations of existing methods: noise robustness and generalization to unseen scenarios. Our core innovation is implicitly learning temporal credit assignments via reward and worst-case supervision. We leverage pre-training with variable-horizon sampling to maximize time-to-consequence, resulting in early detection of behavior deviation. Experiments on 14,000+ simulated trajectories demonstrate state-of-the-art performance, achieving 0.90 AUC and 82.2\% F1-score - outperforming similarly trained supervised and unsupervised baselines by 39\% on Recall and 12\% on F1-score, respectively. Similar performance is achieved while exhibiting robustness to various noise types and generalization to unseen anomaly types. Our code will be available at: https://github.com/abastola0/TRAP.git