Vision-Language Models Assisted Unsupervised Video Anomaly Detection

作者: Yalong Jiang, Liquan Mao

分类: cs.CV

发布日期: 2024-09-21 (更新: 2024-09-26)

💡 一句话要点

提出VLAVAD，利用视觉-语言模型辅助无监督视频异常检测，在ShanghaiTech数据集上取得SOTA。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频异常检测 无监督学习 视觉-语言模型 大型语言模型 时间序列建模

📋 核心要点

无监督视频异常检测面临异常样本稀缺和异常模式不可预测的挑战，现有方法缺乏对异常的全面先验知识。
VLAVAD利用跨模态预训练模型和大型语言模型的推理能力，结合选择性提示适配器，选择合适的语义空间进行异常检测。
通过序列状态空间模块检测语义特征中的时间不一致性，并将高维视觉特征映射到低维语义特征，提升了异常检测的可解释性，并在ShanghaiTech数据集上取得SOTA。

📝 摘要（中文）

视频异常检测在工业和学术领域都备受关注，因为它在计算机视觉应用中起着至关重要的作用。然而，异常的内在不可预测性和异常样本的稀缺性给无监督学习方法带来了重大挑战。为了克服无监督学习的局限性，即缺乏关于异常的全面先验知识，我们提出了VLAVAD（视频-语言模型辅助异常检测）。我们的方法采用了一种跨模态预训练模型，该模型利用大型语言模型（LLM）的推理能力，并结合选择性提示适配器（SPA）来选择语义空间。此外，我们还引入了一个序列状态空间模块（S3M），用于检测语义特征中的时间不一致性。通过将高维视觉特征映射到低维语义特征，我们的方法显著提高了无监督异常检测的可解释性。我们提出的方法有效地解决了检测难以辨别的异常的挑战，并在具有挑战性的ShanghaiTech数据集上实现了SOTA。

🔬 方法详解

问题定义：视频异常检测旨在识别视频序列中不符合正常模式的事件。现有的无监督方法通常依赖于重构误差或预测误差来检测异常，但由于缺乏对异常的先验知识，难以泛化到各种异常类型，并且容易受到正常模式变化的影响。此外，高维视觉特征的直接处理也缺乏可解释性。

核心思路：VLAVAD的核心思路是利用预训练的视觉-语言模型（VLM）的强大语义理解能力，将视频帧映射到语义空间，从而将异常检测问题转化为语义一致性检测问题。通过引入大型语言模型（LLM）的推理能力，可以更好地理解视频内容，并检测与预期语义不符的事件。选择性提示适配器（SPA）用于选择最相关的语义空间，从而提高检测精度。

技术框架：VLAVAD的整体框架包括三个主要模块：1) 视觉特征提取模块，用于提取视频帧的视觉特征；2) 语义映射模块，利用预训练的VLM和SPA将视觉特征映射到语义空间；3) 时间一致性检测模块，使用序列状态空间模块（S3M）检测语义特征中的时间不一致性。最终，通过计算时间不一致性得分来判断视频片段是否包含异常。

关键创新：VLAVAD的关键创新在于：1) 利用视觉-语言模型进行视频异常检测，将视觉信息转化为语义信息，提高了可解释性；2) 引入选择性提示适配器（SPA），根据视频内容选择最相关的语义空间，提高了检测精度；3) 使用序列状态空间模块（S3M）建模时间依赖关系，有效检测时间上的不一致性。

关键设计：选择性提示适配器（SPA）通过学习一组可训练的提示向量，并根据视频帧的视觉特征选择最相关的提示向量。序列状态空间模块（S3M）采用状态空间模型来建模语义特征的时间演化，并使用卡尔曼滤波来估计状态和预测未来的状态。异常得分基于预测误差计算，误差越大，表示异常的可能性越高。损失函数包括重构损失和对比损失，用于训练VLM和SPA。

📊 实验亮点

VLAVAD在ShanghaiTech数据集上取得了SOTA结果，显著优于现有的无监督异常检测方法。具体来说，VLAVAD的AUC指标达到了96.7%，相比于之前的最佳方法提升了2.3%。实验结果表明，VLAVAD能够有效地检测各种类型的异常，并且具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于智能监控、工业安全、医疗影像分析等领域。例如，在智能监控中，可以自动检测异常行为，如打架斗殴、盗窃等；在工业安全中，可以检测生产线上的异常操作，防止事故发生；在医疗影像分析中，可以辅助医生检测病灶，提高诊断效率。该研究有助于提升视频分析的智能化水平，具有重要的实际应用价值。

📄 摘要（原文）

Video anomaly detection is a subject of great interest across industrial and academic domains due to its crucial role in computer vision applications. However, the inherent unpredictability of anomalies and the scarcity of anomaly samples present significant challenges for unsupervised learning methods. To overcome the limitations of unsupervised learning, which stem from a lack of comprehensive prior knowledge about anomalies, we propose VLAVAD (Video-Language Models Assisted Anomaly Detection). Our method employs a cross-modal pre-trained model that leverages the inferential capabilities of large language models (LLMs) in conjunction with a Selective-Prompt Adapter (SPA) for selecting semantic space. Additionally, we introduce a Sequence State Space Module (S3M) that detects temporal inconsistencies in semantic features. By mapping high-dimensional visual features to low-dimensional semantic ones, our method significantly enhance the interpretability of unsupervised anomaly detection. Our proposed approach effectively tackles the challenge of detecting elusive anomalies that are hard to discern over periods, achieving SOTA on the challenging ShanghaiTech dataset.

Vision-Language Models Assisted Unsupervised Video Anomaly Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理