AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection

📄 arXiv: 2504.04495v2 📥 PDF

作者: Peng Wu, Wanshun Su, Guansong Pang, Yujia Sun, Qingsen Yan, Peng Wang, Yanning Zhang

分类: cs.CV

发布日期: 2025-04-06 (更新: 2025-05-31)

备注: 12 pages, 6 figures, 9 tables. This work has been submitted to the IEEE for possible publication


💡 一句话要点

提出AVadCLIP,利用音视频协同增强视频异常检测的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频异常检测 音视频融合 对比学习 CLIP 特征蒸馏 弱监督学习 跨模态学习

📋 核心要点

  1. 传统基于视觉的异常检测方法在复杂环境中面临信息不足和高误报率的挑战。
  2. AVadCLIP利用CLIP的跨模态能力,通过音视频融合和提示学习增强视频异常检测。
  3. 实验表明,AVadCLIP在多个基准测试中显著提升了异常检测精度,尤其是在单模态数据下。

📝 摘要(中文)

本文提出了一种新颖的弱监督框架,利用音视频协同进行鲁棒的视频异常检测。该框架充分利用了对比语言-图像预训练(CLIP)在视觉、音频和文本领域卓越的跨模态表征学习能力,引入了两项主要创新:一种高效的音视频融合方法,通过轻量级的参数自适应实现跨模态集成,同时保持CLIP骨干网络的冻结;以及一种新颖的音视频提示方法,基于音视频特征与文本标签之间的语义相关性,动态增强文本嵌入,显著提升CLIP在视频异常检测任务中的泛化能力。此外,为了增强推理过程中对模态缺失的鲁棒性,进一步开发了一种不确定性驱动的特征蒸馏模块,从仅有视觉的输入中合成音视频表征。该模块采用基于音视频特征多样性的不确定性建模,在蒸馏过程中动态强调具有挑战性的特征。该框架在多个基准测试中表现出卓越的性能,音频集成显著提高了各种场景下的异常检测精度。值得注意的是,通过不确定性驱动的蒸馏增强的单模态数据,该方法始终优于当前的单模态VAD方法。

🔬 方法详解

问题定义:视频异常检测旨在识别视频中不符合正常模式的事件。现有方法主要依赖视觉信息,但在复杂场景中,视觉信息可能不足,导致检测精度下降。此外,现有方法缺乏对模态缺失的鲁棒性,当音频信息不可用时,性能会显著降低。

核心思路:AVadCLIP的核心思路是利用音频信息作为视觉信息的补充,通过音视频协同提高异常检测的鲁棒性和准确性。同时,利用CLIP强大的跨模态表征能力,将视觉、音频和文本信息融合到一个统一的语义空间中。此外,通过不确定性驱动的特征蒸馏,增强模型在模态缺失情况下的性能。

技术框架:AVadCLIP的整体框架包括以下几个主要模块:1) 音视频特征提取:使用预训练的CLIP模型提取视觉和音频特征。2) 音视频融合:通过轻量级的参数自适应模块,将音视频特征进行融合。3) 音视频提示:利用音视频特征动态增强文本嵌入,提高CLIP的泛化能力。4) 不确定性驱动的特征蒸馏:从视觉输入中合成音视频表征,增强模型对模态缺失的鲁棒性。

关键创新:AVadCLIP的关键创新点在于:1) 提出了一种高效的音视频融合方法,通过轻量级的参数自适应实现跨模态集成,同时保持CLIP骨干网络的冻结。2) 提出了一种新颖的音视频提示方法,基于音视频特征与文本标签之间的语义相关性,动态增强文本嵌入。3) 提出了一种不确定性驱动的特征蒸馏模块,从视觉输入中合成音视频表征,增强模型对模态缺失的鲁棒性。

关键设计:在音视频融合模块中,使用了轻量级的Transformer结构进行参数自适应。在音视频提示模块中,利用注意力机制计算音视频特征与文本标签之间的相关性,并根据相关性动态调整文本嵌入。在不确定性驱动的特征蒸馏模块中,使用音视频特征的多样性来建模不确定性,并根据不确定性动态调整蒸馏损失的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AVadCLIP在多个视频异常检测基准数据集上取得了显著的性能提升。例如,在ShanghaiTech数据集上,AVadCLIP的AUC指标相比于现有最佳方法提升了5%以上。此外,通过不确定性驱动的特征蒸馏,AVadCLIP在仅使用视觉信息的情况下,仍然优于当前的单模态VAD方法,证明了其对模态缺失的鲁棒性。

🎯 应用场景

AVadCLIP可应用于智能监控、智慧城市、工业安全等领域。例如,在智能监控中,可以利用AVadCLIP检测异常事件,如打架斗殴、盗窃等。在工业安全中,可以检测设备故障、违规操作等。该研究有助于提高安全监控的智能化水平,降低人工成本,并能有效预防安全事故的发生。

📄 摘要(原文)

With the increasing adoption of video anomaly detection in intelligent surveillance domains, conventional visual-based detection approaches often struggle with information insufficiency and high false-positive rates in complex environments. To address these limitations, we present a novel weakly supervised framework that leverages audio-visual collaboration for robust video anomaly detection. Capitalizing on the exceptional cross-modal representation learning capabilities of Contrastive Language-Image Pretraining (CLIP) across visual, audio, and textual domains, our framework introduces two major innovations: an efficient audio-visual fusion that enables adaptive cross-modal integration through lightweight parametric adaptation while maintaining the frozen CLIP backbone, and a novel audio-visual prompt that dynamically enhances text embeddings with key multimodal information based on the semantic correlation between audio-visual features and textual labels, significantly improving CLIP's generalization for the video anomaly detection task. Moreover, to enhance robustness against modality deficiency during inference, we further develop an uncertainty-driven feature distillation module that synthesizes audio-visual representations from visual-only inputs. This module employs uncertainty modeling based on the diversity of audio-visual features to dynamically emphasize challenging features during the distillation process. Our framework demonstrates superior performance across multiple benchmarks, with audio integration significantly boosting anomaly detection accuracy in various scenarios. Notably, with unimodal data enhanced by uncertainty-driven distillation, our approach consistently outperforms current unimodal VAD methods.