EventVAD: Training-Free Event-Aware Video Anomaly Detection
作者: Yihua Shao, Haojin He, Sijie Li, Siyu Chen, Xinwei Long, Fanhu Zeng, Yuxuan Fan, Muyang Zhang, Ziyang Yan, Ao Ma, Xiaochen Wang, Hao Tang, Yan Wang, Shuyan Li
分类: cs.CV
发布日期: 2025-04-17 (更新: 2025-07-28)
备注: Paper was accepted by ACM MM 2025; Code: https://github.com/YihuaJerry/EventVAD
💡 一句话要点
EventVAD:一种免训练的事件感知视频异常检测框架
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频异常检测 免训练学习 事件感知 动态图建模 多模态LLM 时间推理 无监督学习
📋 核心要点
- 现有视频异常检测方法在泛化性和处理长视频方面存在挑战,有监督方法依赖大量标注数据,免训练方法难以捕捉细粒度事件。
- EventVAD通过动态时空图建模提取事件特征,利用无监督统计特征检测事件边界,并结合分层提示策略引导多模态LLM进行推理。
- 实验结果表明,EventVAD在UCF-Crime和XD-Violence数据集上取得了SOTA性能,优于使用更大规模LLM的基线方法。
📝 摘要(中文)
视频异常检测(VAD)旨在识别视频中的异常事件。有监督方法需要大量的领域内训练数据,并且通常难以泛化到未见过的异常。相比之下,免训练方法利用大型语言模型(LLM)的内在世界知识来检测异常,但在定位细粒度的视觉转换和多样化事件方面面临挑战。因此,我们提出了EventVAD,一个事件感知的视频异常检测框架,它通过时间事件推理结合了定制的动态图架构和多模态LLM。具体来说,EventVAD首先采用具有时间衰减约束的动态时空图建模来捕获事件感知的视频特征。然后,它执行自适应噪声过滤,并使用信号比率阈值来通过无监督统计特征检测事件边界。统计边界检测模块降低了MLLM处理长视频的复杂性,并通过事件一致性提高了它们的时间推理能力。最后,它利用分层提示策略来指导MLLM在做出最终决策之前执行推理。我们在UCF-Crime和XD-Violence数据集上进行了广泛的实验。结果表明,EventVAD与7B MLLM在免训练设置中实现了最先进(SOTA)的性能,优于使用7B或更大MLLM的强大基线。
🔬 方法详解
问题定义:视频异常检测旨在识别视频中不寻常的事件。现有方法,特别是免训练方法,虽然避免了对大量标注数据的依赖,但在处理长视频时,难以有效地定位细粒度的异常事件和捕捉事件之间的时间关系,导致推理效率和准确性下降。
核心思路:EventVAD的核心思路是将视频分解为一系列事件,并利用这些事件边界来指导多模态LLM进行推理。通过事件感知的特征提取和边界检测,降低了LLM处理长视频的复杂性,并提高了其时间推理能力。
技术框架:EventVAD框架主要包含三个模块:1) 动态时空图建模:使用时间衰减约束的动态图来捕获事件感知的视频特征。2) 统计边界检测:通过自适应噪声过滤和信号比率阈值,利用无监督统计特征检测事件边界。3) 分层提示推理:利用分层提示策略,引导多模态LLM进行事件推理和异常检测。
关键创新:EventVAD的关键创新在于将动态图建模、无监督事件边界检测和分层提示推理相结合,从而实现了免训练的事件感知视频异常检测。与现有方法相比,EventVAD能够更有效地处理长视频,并提高异常检测的准确性和泛化能力。
关键设计:动态时空图建模中,时间衰减约束用于强调近期事件的影响,降低远期事件的干扰。统计边界检测模块使用自适应噪声过滤来提高边界检测的鲁棒性。分层提示推理策略通过逐步引导LLM进行推理,提高了推理的准确性和效率。
📊 实验亮点
EventVAD在UCF-Crime和XD-Violence数据集上取得了显著的性能提升。例如,在UCF-Crime数据集上,EventVAD使用7B MLLM实现了SOTA性能,超越了使用更大规模LLM的基线方法。实验结果表明,EventVAD能够有效地处理长视频,并提高异常检测的准确性和泛化能力。
🎯 应用场景
EventVAD可应用于智能监控、工业安全、医疗诊断等领域。例如,在智能监控中,可以自动检测异常行为,如打架、盗窃等;在工业安全中,可以检测设备故障或操作失误;在医疗诊断中,可以辅助医生识别异常病灶。该研究有助于提升视频监控系统的智能化水平,降低人工监控成本。
📄 摘要(原文)
Video Anomaly Detection~(VAD) focuses on identifying anomalies within videos. Supervised methods require an amount of in-domain training data and often struggle to generalize to unseen anomalies. In contrast, training-free methods leverage the intrinsic world knowledge of large language models (LLMs) to detect anomalies but face challenges in localizing fine-grained visual transitions and diverse events. Therefore, we propose EventVAD, an event-aware video anomaly detection framework that combines tailored dynamic graph architectures and multimodal LLMs through temporal-event reasoning. Specifically, EventVAD first employs dynamic spatiotemporal graph modeling with time-decay constraints to capture event-aware video features. Then, it performs adaptive noise filtering and uses signal ratio thresholding to detect event boundaries via unsupervised statistical features. The statistical boundary detection module reduces the complexity of processing long videos for MLLMs and improves their temporal reasoning through event consistency. Finally, it utilizes a hierarchical prompting strategy to guide MLLMs in performing reasoning before determining final decisions. We conducted extensive experiments on the UCF-Crime and XD-Violence datasets. The results demonstrate that EventVAD with a 7B MLLM achieves state-of-the-art (SOTA) in training-free settings, outperforming strong baselines that use 7B or larger MLLMs.