MoniTor: Exploiting Large Language Models with Instruction for Online Video Anomaly Detection
作者: Shengtian Yang, Yue Feng, Yingshi Liu, Jingrou Zhang, Jie Qin
分类: cs.CV
发布日期: 2025-10-24
备注: Accepted to NeurIPS 2025. The first two authors hold equal contributions
🔗 代码/项目: GITHUB
💡 一句话要点
MoniTor:利用指令驱动的大语言模型进行在线视频异常检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频异常检测 在线检测 大型语言模型 视觉-语言模型 LSTM 无监督学习 时间序列分析
📋 核心要点
- 在线视频异常检测面临实时性和计算复杂性的挑战,现有方法难以兼顾效率与精度。
- MoniTor通过流式VLM输入、LSTM预测机制和评分队列,实现无训练的在线异常检测。
- 在UCF-Crime和XD-Violence数据集上的实验表明,MoniTor性能优于现有方法,并可与弱监督方法媲美。
📝 摘要(中文)
视频异常检测(VAD)旨在定位视频中不寻常的活动或行为。最近,离线VAD受到了广泛的研究关注,这得益于大型语言模型(LLM)和视觉-语言模型(VLM)的进步,为更细致地理解异常提供了潜力。然而,由于实时约束和计算强度,在线VAD很少受到关注。在本文中,我们引入了一种新颖的基于内存的在线评分队列方案,用于无训练VAD(MoniTor),以解决在线VAD中固有的复杂性。具体来说,MoniTor将流式输入应用于VLM,利用预训练的大规模模型的能力。为了更有效地捕获时间依赖性,我们结合了一种受长短期记忆(LSTM)网络启发的预测机制。这确保了模型可以有效地建模过去的状态,并利用先前的预测来识别异常行为,从而更好地理解当前帧。此外,我们设计了一个评分队列和一个异常先验,以动态存储最近的分数,并覆盖监控场景中的所有异常,为LLM提供指导,以区分随时间变化的正常和异常行为。我们在包含各种监控和真实场景的两个大型数据集(即UCF-Crime和XD-Violence)上评估了MoniTor。结果表明,MoniTor优于最先进的方法,并且在没有训练的情况下与弱监督方法具有竞争力。
🔬 方法详解
问题定义:在线视频异常检测旨在实时识别视频流中的异常事件。现有方法通常需要大量训练数据,计算成本高昂,难以适应在线场景的需求。此外,如何有效利用视觉和语言信息进行异常判断也是一个挑战。
核心思路:MoniTor的核心思路是利用预训练的视觉-语言模型(VLM)的强大表征能力,结合基于内存的评分队列和LSTM预测机制,实现无训练的在线异常检测。通过评分队列动态存储历史信息,并利用LSTM预测未来帧的特征,从而更好地判断当前帧是否异常。
技术框架:MoniTor的整体框架包括以下几个主要模块:1) 流式VLM输入:将视频帧逐帧输入VLM,提取视觉特征。2) LSTM预测:利用LSTM网络预测下一帧的特征,捕捉时间依赖性。3) 评分队列:维护一个动态更新的评分队列,存储最近帧的异常分数。4) 异常先验:利用异常先验知识,指导LLM区分正常和异常行为。5) LLM判别:使用LLM结合视觉特征、LSTM预测结果和评分队列信息,判断当前帧是否异常。
关键创新:MoniTor的关键创新在于:1) 提出了一种基于内存的在线评分队列方案,能够动态存储历史信息,并覆盖监控场景中的所有异常。2) 结合LSTM预测机制,有效捕捉时间依赖性,提高异常检测的准确性。3) 利用LLM进行异常判别,无需训练,即可实现高性能的在线异常检测。
关键设计:评分队列的大小是一个关键参数,需要根据实际场景进行调整,以平衡计算成本和性能。LSTM网络的结构和参数也需要仔细设计,以保证其能够有效地捕捉时间依赖性。异常先验的设计需要结合具体的应用场景,例如,在监控场景中,可以设置一些常见的异常事件作为先验知识。
📊 实验亮点
MoniTor在UCF-Crime和XD-Violence数据集上取得了显著的性能提升。在UCF-Crime数据集上,MoniTor的AUC指标优于现有最先进方法,并且在没有训练的情况下与弱监督方法具有竞争力。在XD-Violence数据集上,MoniTor也取得了类似的结果,验证了其在不同场景下的泛化能力。
🎯 应用场景
MoniTor可应用于智能监控、工业安全、医疗健康等领域。例如,在智能监控中,可以实时检测异常行为,如打架斗殴、盗窃等;在工业安全中,可以检测违规操作,如未佩戴安全帽等;在医疗健康中,可以监测病人异常行为,如跌倒、抽搐等。该研究有助于提高安全性和效率,具有重要的实际应用价值。
📄 摘要(原文)
Video Anomaly Detection (VAD) aims to locate unusual activities or behaviors within videos. Recently, offline VAD has garnered substantial research attention, which has been invigorated by the progress in large language models (LLMs) and vision-language models (VLMs), offering the potential for a more nuanced understanding of anomalies. However, online VAD has seldom received attention due to real-time constraints and computational intensity. In this paper, we introduce a novel Memory-based online scoring queue scheme for Training-free VAD (MoniTor), to address the inherent complexities in online VAD. Specifically, MoniTor applies a streaming input to VLMs, leveraging the capabilities of pre-trained large-scale models. To capture temporal dependencies more effectively, we incorporate a novel prediction mechanism inspired by Long Short-Term Memory (LSTM) networks. This ensures the model can effectively model past states and leverage previous predictions to identify anomalous behaviors. Thereby, it better understands the current frame. Moreover, we design a scoring queue and an anomaly prior to dynamically store recent scores and cover all anomalies in the monitoring scenario, providing guidance for LLMs to distinguish between normal and abnormal behaviors over time. We evaluate MoniTor on two large datasets (i.e., UCF-Crime and XD-Violence) containing various surveillance and real-world scenarios. The results demonstrate that MoniTor outperforms state-of-the-art methods and is competitive with weakly supervised methods without training. Code is available at https://github.com/YsTvT/MoniTor.