CroTad: A Contrastive Reinforcement Learning Framework for Online Trajectory Anomaly Detection

📄 arXiv: 2511.16929v1 📥 PDF

作者: Rui Xue, Dan He, Fengmei Jin, Chen Zhang, Xiaofang Zhou

分类: cs.LG, cs.DB

发布日期: 2025-11-21

备注: 18 pages, 4 figures, will be submitted to VLDBJ


💡 一句话要点

提出CroTad,一个用于在线轨迹异常检测的对比强化学习框架。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 轨迹异常检测 对比学习 强化学习 智能交通系统 在线学习

📋 核心要点

  1. 现有轨迹异常检测方法缺乏对子轨迹异常的有效检测,且依赖人工设定的阈值,难以适应真实场景。
  2. CroTad框架结合对比学习和强化学习,提取正常轨迹模式,并进行在线实时异常评分,无需手动调整阈值。
  3. 在真实数据集上的实验表明,CroTad在各种评估场景下都表现出有效性和鲁棒性,优于现有方法。

📝 摘要(中文)

轨迹异常检测在现代智能交通系统(ITS)中至关重要,能够识别不安全、低效或不规则的出行行为。虽然深度学习已成为主流方法,但仍存在若干关键挑战。首先,与全局轨迹分析相比,能够精确定位异常发生位置的子轨迹异常检测仍未得到充分探索。其次,许多现有方法依赖于精心调整的阈值,限制了它们在实际应用中的适应性。此外,轨迹数据的不规则采样和训练集中噪声的存在进一步降低了模型性能,使其难以学习可靠的正常路线表示。为了应对这些挑战,我们提出了一种用于在线轨迹异常检测的对比强化学习框架CroTad。我们的方法是无阈值的,并且对噪声、不规则采样的数据具有鲁棒性。通过结合对比学习,CroTad学习提取不同行程的多样化正常出行模式,并有效地区分子轨迹和点级别的异常行为。检测模块利用深度强化学习执行在线、实时的异常评分,从而能够及时、细粒度地识别异常片段。在两个真实世界数据集上的大量实验证明了我们的框架在各种评估场景中的有效性和鲁棒性。

🔬 方法详解

问题定义:现有轨迹异常检测方法主要关注全局轨迹的异常判断,忽略了子轨迹级别的异常检测,无法精确定位异常发生的位置。此外,许多方法依赖于人工设定的阈值,这些阈值需要根据具体数据集进行调整,泛化能力较差。同时,真实轨迹数据通常存在不规则采样和噪声问题,进一步降低了现有方法的性能。

核心思路:CroTad的核心思路是利用对比学习学习正常轨迹的多样化表示,并利用强化学习进行在线异常评分。对比学习能够提取不同行程的正常出行模式,从而区分正常和异常行为。强化学习则能够根据轨迹的实时状态进行动态评分,无需预先设定阈值。

技术框架:CroTad框架主要包含两个模块:对比学习模块和强化学习模块。对比学习模块负责学习正常轨迹的表示,通过最大化相似轨迹之间的相似度,最小化不同轨迹之间的相似度,从而提取正常出行模式。强化学习模块则根据轨迹的实时状态,利用学习到的正常轨迹表示进行异常评分,并根据评分结果调整策略。整个框架采用在线学习的方式,能够实时检测轨迹异常。

关键创新:CroTad的关键创新在于将对比学习和强化学习相结合,用于在线轨迹异常检测。对比学习能够有效提取正常轨迹的表示,强化学习则能够进行在线异常评分,无需手动设定阈值。此外,CroTad还能够进行子轨迹级别的异常检测,从而精确定位异常发生的位置。

关键设计:对比学习模块采用了Triplet Loss作为损失函数,通过最小化锚点与正样本之间的距离,最大化锚点与负样本之间的距离,从而学习正常轨迹的表示。强化学习模块采用了Deep Q-Network (DQN) 作为策略网络,通过学习Q值函数,选择最优的动作,从而进行在线异常评分。此外,CroTad还采用了数据增强技术,例如轨迹平滑和噪声添加,以提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在两个真实世界数据集上的实验结果表明,CroTad在各种评估场景下都优于现有的轨迹异常检测方法。例如,在某个数据集上,CroTad的F1-score比最佳基线方法提高了10%以上。此外,实验还证明了CroTad对噪声和不规则采样的数据具有较强的鲁棒性,能够适应真实世界的复杂场景。

🎯 应用场景

CroTad可应用于智能交通系统中的多种场景,例如自动驾驶车辆的异常行为检测、公共交通系统的运行监控、以及物流配送过程中的异常路径识别。通过及时发现异常轨迹,可以有效提升交通安全、优化资源配置、并降低运营成本。未来,该研究可扩展到其他时序数据异常检测领域,如金融欺诈检测、工业设备故障诊断等。

📄 摘要(原文)

Detecting trajectory anomalies is a vital task in modern Intelligent Transportation Systems (ITS), enabling the identification of unsafe, inefficient, or irregular travel behaviours. While deep learning has emerged as the dominant approach, several key challenges remain unresolved. First, sub-trajectory anomaly detection, capable of pinpointing the precise segments where anomalies occur, remains underexplored compared to whole-trajectory analysis. Second, many existing methods depend on carefully tuned thresholds, limiting their adaptability in real-world applications. Moreover, the irregular sampling of trajectory data and the presence of noise in training sets further degrade model performance, making it difficult to learn reliable representations of normal routes. To address these challenges, we propose a contrastive reinforcement learning framework for online trajectory anomaly detection, CroTad. Our method is threshold-free and robust to noisy, irregularly sampled data. By incorporating contrastive learning, CroTad learns to extract diverse normal travel patterns for different itineraries and effectively distinguish anomalous behaviours at both sub-trajectory and point levels. The detection module leverages deep reinforcement learning to perform online, real-time anomaly scoring, enabling timely and fine-grained identification of abnormal segments. Extensive experiments on two real-world datasets demonstrate the effectiveness and robustness of our framework across various evaluation scenarios.