A Lightweight Dual-Branch System for Weakly-Supervised Video Anomaly Detection on Consumer Edge Devices

📄 arXiv: 2410.21991v7 📥 PDF

作者: Wen-Dong Jiang, Chih-Yung Chang, Ssu-Chi Kuai, Diptendu Sinha Roy

分类: cs.CV, cs.AI

发布日期: 2024-10-29 (更新: 2025-06-06)

备注: This manuscript has been submitted to IEEE TCE and is under consideration for publication, with potential copyright transfer in the future


💡 一句话要点

提出RuleVAD,一种轻量级双分支系统,用于消费级边缘设备上的弱监督视频异常检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频异常检测 弱监督学习 边缘计算 双分支网络 多模态融合 目标检测 数据挖掘

📋 核心要点

  1. 现有视频异常检测方法计算成本高、模型体积大,难以在资源受限的边缘设备上部署。
  2. RuleVAD采用解耦双分支架构,隐式分支快速过滤正常活动,显式分支利用YOLO-World和数据挖掘进行细粒度分类。
  3. 在XD-Violence和UCF-Crime数据集上,RuleVAD在准确性和速度上均优于现有方法,并可在Jetson Nano上部署。

📝 摘要(中文)

针对智能家居摄像头和个人监控系统等消费电子产品中日益增长的智能安全需求,本文提出了一种名为RuleVAD的轻量级系统,旨在实现高效、低复杂度的威胁检测。RuleVAD采用创新的解耦双分支架构,以最小化计算负载。隐式分支利用视觉特征进行快速、粗粒度的二元分类,有效过滤正常活动以避免不必要的处理。对于潜在的异常或复杂事件,显式多模态分支接管,利用YOLO-World检测对象,并通过数据挖掘从场景中生成可解释的文本关联规则。通过将这些规则与视觉数据对齐,RuleVAD实现了更细致、精细的分类,显著减少了仅依赖视觉系统的误报。在XD-Violence和UCF-Crime基准数据集上的实验表明,RuleVAD在准确性和速度方面均优于现有方法。该系统针对低功耗运行进行了优化,并可完全部署在NVIDIA Jetson Nano板上,证明了其在日常消费电子设备上实现先进、实时安全监控的可行性。

🔬 方法详解

问题定义:现有视频异常检测方法通常计算复杂度高,模型体积大,难以在算力有限的消费级边缘设备上实时部署,例如智能家居摄像头。这限制了高级人工智能在这些设备上的应用,尤其是在安全监控领域。现有方法容易产生误报,且缺乏可解释性。

核心思路:RuleVAD的核心思路是采用一个轻量级的双分支架构,将异常检测任务分解为快速过滤和细粒度分析两个阶段。通过隐式分支快速排除正常活动,减少计算量;然后,显式分支利用多模态信息进行更精确的异常判断,并提供可解释的规则。这种解耦的设计旨在降低整体计算负担,同时提高检测准确率和可解释性。

技术框架:RuleVAD系统包含两个主要分支:隐式分支和显式分支。隐式分支使用视觉特征进行快速二元分类,判断视频帧是否可能包含异常。如果判断为正常,则跳过后续处理;如果判断为可能异常,则将该帧传递给显式分支。显式分支首先使用YOLO-World进行目标检测,然后利用数据挖掘技术从检测到的对象及其关系中生成文本关联规则。最后,将这些规则与视觉数据结合,进行细粒度的异常分类。

关键创新:RuleVAD的关键创新在于其解耦的双分支架构和多模态融合方法。通过隐式分支进行快速过滤,显著减少了计算量。利用YOLO-World进行目标检测,并结合数据挖掘生成可解释的文本规则,提高了异常检测的准确性和可解释性。与传统的仅依赖视觉特征的方法相比,RuleVAD能够更好地理解场景中的上下文信息,从而减少误报。

关键设计:隐式分支的网络结构未知,但强调轻量化设计以保证速度。显式分支使用YOLO-World进行目标检测,具体参数设置未知。数据挖掘算法用于生成关联规则,具体算法选择和参数设置未知。损失函数未知,但目标是优化异常检测的准确率和速度。系统针对NVIDIA Jetson Nano进行了优化,具体优化策略未知。

📊 实验亮点

RuleVAD在XD-Violence和UCF-Crime数据集上取得了优于现有方法的性能。具体性能数据未知,但论文强调在准确性和速度上均有提升。更重要的是,RuleVAD能够在NVIDIA Jetson Nano上部署,证明了其在资源受限设备上的可行性。这使得RuleVAD能够真正应用于实际的消费级产品中。

🎯 应用场景

RuleVAD适用于智能家居摄像头、个人监控系统等消费级边缘设备,可实现低功耗、实时的视频异常检测。该技术能够有效提升家庭安全,减少误报,并提供可解释的异常事件分析。未来,RuleVAD有望扩展到更广泛的物联网设备和安全监控场景,例如智能交通、工业安全等。

📄 摘要(原文)

The growing demand for intelligent security in consumer electronics, such as smart home cameras and personal monitoring systems, is often hindered by the high computational cost and large model sizes of advanced AI. These limitations prevent the effective deployment of real-time Video Anomaly Detection (VAD) on resource-constrained edge devices. To bridge this gap, this paper introduces Rule-based Video Anomaly Detection (RuleVAD), a novel, lightweight system engineered for high-efficiency and low-complexity threat detection directly on consumer hardware. RuleVAD features an innovative decoupled dual-branch architecture to minimize computational load. An implicit branch uses visual features for rapid, coarse-grained binary classification, efficiently filtering out normal activity to avoid unnecessary processing. For potentially anomalous or complex events, a multimodal explicit branch takes over. This branch leverages YOLO-World to detect objects and applies data mining to generate interpretable, text-based association rules from the scene. By aligning these rules with visual data, RuleVAD achieves a more nuanced, fine-grained classification, significantly reducing the false alarms common in vision-only systems. Extensive experiments on the XD-Violence and UCF-Crime benchmark datasets show that RuleVAD achieves superior performance, surpassing existing state-of-the-art methods in both accuracy and speed. Crucially, the entire system is optimized for low-power operation and is fully deployable on an NVIDIA Jetson Nano board, demonstrating its practical feasibility for bringing advanced, real-time security monitoring to everyday consumer electronic devices.