Just Dance with $π$! A Poly-modal Inductor for Weakly-supervised Video Anomaly Detection
作者: Snehashis Majhi, Giacomo D'Amicantonio, Antitza Dantcheva, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, Egor Bondarev, Francois Bremond
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-05-19
💡 一句话要点
提出PI-VAD:一种多模态诱导框架,用于提升弱监督视频异常检测的鲁棒性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视频异常检测 弱监督学习 多模态融合 跨模态学习 表征学习
📋 核心要点
- 现有弱监督视频异常检测方法依赖单一RGB模态,难以区分视觉相似但语义不同的异常事件。
- PI-VAD框架通过引入姿势、深度、全景分割、光流和语言等多种模态,增强RGB特征的判别能力。
- 该方法在多个真实世界数据集上取得了SOTA结果,且推理阶段无需多模态骨干网络,计算效率高。
📝 摘要(中文)
本文提出了一种用于视频异常检测(VAD)的多模态诱导框架“PI-VAD”。现有弱监督VAD方法通常仅依赖RGB时空特征,这限制了它们在实际场景中的可靠性,因为RGB特征不足以区分视觉上相似的事件,例如入店行窃。为了实现鲁棒的复杂真实世界VAD,PI-VAD通过五种额外的模态来增强RGB表示,包括对细粒度运动的敏感性(姿势)、三维场景和实体表示(深度)、周围物体(全景掩码)、全局运动(光流)以及语言线索(VLM)。每种模态代表一个多边形的轴,旨在为RGB添加显著线索。PI-VAD包含伪模态生成模块和跨模态诱导模块,用于生成特定于模态的原型表示,从而将多模态信息诱导到RGB线索中。这些模块通过执行异常感知辅助任务来运行,并且仅在训练期间需要五个模态骨干网络。PI-VAD在包含真实世界场景的三个著名VAD数据集上实现了最先进的准确性,而无需在推理时产生五个模态骨干网络的计算开销。
🔬 方法详解
问题定义:现有的弱监督视频异常检测方法主要依赖于RGB时空特征,这在实际场景中存在局限性。例如,一些异常行为(如盗窃)在视觉上可能与正常行为非常相似,仅依靠RGB信息难以有效区分。因此,如何利用更多模态的信息来提升异常检测的准确性和鲁棒性是一个关键问题。
核心思路:PI-VAD的核心思路是通过引入多种互补模态的信息,来增强RGB特征的判别能力。具体来说,它利用姿势、深度、全景分割、光流和语言等五种模态,从不同角度捕捉视频中的异常信息。通过将这些多模态信息“诱导”到RGB特征中,使得模型能够更好地理解视频内容,从而更准确地检测异常事件。
技术框架:PI-VAD框架包含两个主要模块:伪模态生成模块和跨模态诱导模块。首先,伪模态生成模块负责生成每种模态的特定原型表示,这些原型表示能够捕捉该模态下的异常特征。然后,跨模态诱导模块将这些模态特定的信息融入到RGB特征中,从而增强RGB特征的表达能力。整个框架仅在训练阶段需要多模态信息,推理阶段仅使用RGB特征,从而降低了计算成本。
关键创新:PI-VAD的关键创新在于其多模态诱导机制。与直接融合多模态特征的方法不同,PI-VAD通过学习模态特定的原型表示,并将这些表示“诱导”到RGB特征中,从而避免了直接融合带来的信息冗余和计算开销。此外,该方法通过设计异常感知辅助任务,使得模型能够更好地学习异常特征,从而提升了异常检测的准确性。
关键设计:PI-VAD的关键设计包括:1) 使用五种互补的模态(姿势、深度、全景分割、光流和语言)来增强RGB特征;2) 设计伪模态生成模块,用于生成模态特定的原型表示;3) 设计跨模态诱导模块,用于将多模态信息融入到RGB特征中;4) 采用异常感知辅助任务,用于提升模型对异常特征的学习能力。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
PI-VAD在三个主流视频异常检测数据集上取得了SOTA结果,证明了其有效性。具体性能数据和对比基线在论文中进行了详细展示(未知)。值得注意的是,该方法在推理阶段无需多模态信息,降低了计算成本,使其更易于部署到实际应用中。
🎯 应用场景
该研究成果可应用于智能安防、智慧城市、工业监控等领域。例如,在商场中,该系统可以检测盗窃、打架等异常行为;在工厂中,可以检测工人违规操作、设备故障等异常情况。该研究有助于提升视频监控系统的智能化水平,降低人工监控成本,提高安全保障能力。
📄 摘要(原文)
Weakly-supervised methods for video anomaly detection (VAD) are conventionally based merely on RGB spatio-temporal features, which continues to limit their reliability in real-world scenarios. This is due to the fact that RGB-features are not sufficiently distinctive in setting apart categories such as shoplifting from visually similar events. Therefore, towards robust complex real-world VAD, it is essential to augment RGB spatio-temporal features by additional modalities. Motivated by this, we introduce the Poly-modal Induced framework for VAD: "PI-VAD", a novel approach that augments RGB representations by five additional modalities. Specifically, the modalities include sensitivity to fine-grained motion (Pose), three dimensional scene and entity representation (Depth), surrounding objects (Panoptic masks), global motion (optical flow), as well as language cues (VLM). Each modality represents an axis of a polygon, streamlined to add salient cues to RGB. PI-VAD includes two plug-in modules, namely Pseudo-modality Generation module and Cross Modal Induction module, which generate modality-specific prototypical representation and, thereby, induce multi-modal information into RGB cues. These modules operate by performing anomaly-aware auxiliary tasks and necessitate five modality backbones -- only during training. Notably, PI-VAD achieves state-of-the-art accuracy on three prominent VAD datasets encompassing real-world scenarios, without requiring the computational overhead of five modality backbones at inference.