SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model
作者: Zongcan Ding, Haodong Zhang, Peng Wu, Guansong Pang, Zhiwei Yang, Peng Wang, Yanning Zhang
分类: cs.CV
发布日期: 2025-04-14
💡 一句话要点
提出SlowFastVAD,融合快速检测器与RAG增强的视觉语言模型,用于高效可解释的视频异常检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频异常检测 视觉语言模型 检索增强生成 多模态融合 知识库 半监督学习 可解释性 双通路机制
📋 核心要点
- 现有半监督视频异常检测方法存在误报率高、可解释性差的问题,难以满足实际应用需求。
- SlowFastVAD融合快速检测器和RAG增强的视觉语言模型,利用各自优势,实现高效且可解释的异常检测。
- 实验表明,SlowFastVAD在多个基准测试中取得了显著的检测精度提升,并降低了计算开销。
📝 摘要(中文)
视频异常检测(VAD)旨在识别视频中意外事件,在安全关键领域有广泛应用。半监督方法仅在正常样本上训练,但常存在误报率高和可解释性差的问题。最近,视觉语言模型(VLM)展示了强大的多模态推理能力,为可解释的异常检测提供了新机会。然而,其高计算成本和缺乏领域适应性阻碍了实时部署和可靠性。受人类视觉感知中双重互补通路的启发,我们提出了SlowFastVAD,一个混合框架,集成了快速异常检测器和慢速异常检测器(即检索增强生成(RAG)增强的VLM),以解决这些限制。快速检测器首先提供粗略的异常置信度分数,只有一小部分模糊片段会被更慢但更可解释的VLM进一步分析,以进行精细的检测和推理。此外,为了使VLM适应特定领域的VAD场景,我们构建了一个知识库,包括基于少量正常样本的正常模式和VLM推断的异常模式。在推理过程中,检索相关模式并用于增强异常推理的提示。最后,我们平滑地融合快速和慢速检测器的异常置信度,以增强异常检测的鲁棒性。在四个基准上的大量实验表明,SlowFastVAD有效地结合了快速和慢速检测器的优势,并以显著降低的计算开销实现了卓越的检测精度和可解释性,使其非常适合具有高可靠性要求的实际VAD应用。
🔬 方法详解
问题定义:视频异常检测旨在识别视频中不寻常的事件。现有半监督方法虽然避免了对异常样本的依赖,但普遍存在误报率高、可解释性差的问题,难以满足实际应用中对可靠性和可解释性的需求。视觉语言模型(VLM)虽然具备强大的多模态推理能力,但计算成本高昂,且缺乏针对特定视频异常检测场景的领域适应性。
核心思路:SlowFastVAD的核心思路是模仿人类视觉系统的双通路机制,利用快速检测器进行初步筛选,减少需要VLM处理的视频片段,从而降低计算成本。同时,通过RAG增强的VLM提供更精细的检测和可解释的推理结果。这种混合架构旨在兼顾效率、准确性和可解释性。
技术框架:SlowFastVAD包含两个主要模块:快速异常检测器和慢速异常检测器(RAG增强的VLM)。快速检测器首先对整个视频进行分析,输出每个片段的异常置信度分数。然后,根据置信度分数选择一部分“模糊”片段,将其输入到慢速检测器中进行更详细的分析。RAG模块通过检索与当前片段相关的正常和异常模式,增强VLM的推理能力。最后,融合两个检测器的输出,得到最终的异常检测结果。
关键创新:SlowFastVAD的关键创新在于融合了快速和慢速两种检测器,并利用RAG增强VLM的领域适应性。这种混合架构不仅降低了计算成本,还提高了检测精度和可解释性。此外,构建领域知识库并利用RAG进行提示增强,是VLM适应特定VAD场景的关键。
关键设计:快速检测器可以使用各种现成的异常检测模型,例如基于重建误差的模型或基于预测的模型。RAG模块的关键在于知识库的构建和检索策略。知识库包含正常模式(从少量正常样本中提取)和异常模式(由VLM推断)。检索策略旨在找到与当前片段最相关的模式,并将其作为提示输入到VLM中。最终的异常置信度融合采用加权平均的方式,权重可以根据实验结果进行调整。
📊 实验亮点
SlowFastVAD在四个基准数据集上进行了广泛的实验,结果表明该方法在检测精度和计算效率方面均优于现有方法。具体而言,SlowFastVAD在保持较高检测精度的同时,显著降低了VLM的计算开销,使其更适合实际应用。实验结果还表明,RAG增强的VLM能够有效提高检测精度和可解释性。
🎯 应用场景
SlowFastVAD适用于各种安全关键领域的视频监控应用,例如智能交通、工业安全、智慧城市等。它可以用于检测异常行为、事故和违规事件,从而提高安全性、降低风险并提升运营效率。该方法具有高可靠性和可解释性,有助于快速响应异常事件并进行有效的决策。
📄 摘要(原文)
Video anomaly detection (VAD) aims to identify unexpected events in videos and has wide applications in safety-critical domains. While semi-supervised methods trained on only normal samples have gained traction, they often suffer from high false alarm rates and poor interpretability. Recently, vision-language models (VLMs) have demonstrated strong multimodal reasoning capabilities, offering new opportunities for explainable anomaly detection. However, their high computational cost and lack of domain adaptation hinder real-time deployment and reliability. Inspired by dual complementary pathways in human visual perception, we propose SlowFastVAD, a hybrid framework that integrates a fast anomaly detector with a slow anomaly detector (namely a retrieval augmented generation (RAG) enhanced VLM), to address these limitations. Specifically, the fast detector first provides coarse anomaly confidence scores, and only a small subset of ambiguous segments, rather than the entire video, is further analyzed by the slower yet more interpretable VLM for elaborate detection and reasoning. Furthermore, to adapt VLMs to domain-specific VAD scenarios, we construct a knowledge base including normal patterns based on few normal samples and abnormal patterns inferred by VLMs. During inference, relevant patterns are retrieved and used to augment prompts for anomaly reasoning. Finally, we smoothly fuse the anomaly confidence of fast and slow detectors to enhance robustness of anomaly detection. Extensive experiments on four benchmarks demonstrate that SlowFastVAD effectively combines the strengths of both fast and slow detectors, and achieves remarkable detection accuracy and interpretability with significantly reduced computational overhead, making it well-suited for real-world VAD applications with high reliability requirements.