Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

📄 arXiv: 2510.14896v1 📥 PDF

作者: Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

分类: cs.CV

发布日期: 2025-10-16


💡 一句话要点

提出基于多模态LLM描述的半监督视频异常检测框架,提升复杂异常检测能力和可解释性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频异常检测 半监督学习 多模态学习 大型语言模型 可解释性 对象交互 视频理解

📋 核心要点

  1. 现有半监督VAD方法在处理复杂交互异常时表现不佳,且缺乏可解释性。
  2. 利用MLLM提取视频中对象活动和交互的文本描述,作为高级表示进行异常检测。
  3. 实验表明,该方法在复杂交互异常检测上表现出色,并在无交互异常数据集上达到SOTA。

📝 摘要(中文)

现有的半监督视频异常检测(VAD)方法通常难以检测涉及对象交互的复杂异常,并且普遍缺乏可解释性。为了克服这些限制,我们提出了一种新颖的VAD框架,该框架利用多模态大型语言模型(MLLM)。与之前基于MLLM的直接在帧级别进行异常判断的方法不同,我们的方法侧重于提取和解释对象活动和随时间推移的交互。通过使用对象对在不同时刻的视觉输入查询MLLM,我们生成了正常视频中活动和交互的文本描述。这些文本描述充当视频中对象活动和交互的高级表示。通过将测试时的文本描述与正常训练视频中的文本描述进行比较,来检测异常。我们的方法本身就提供了可解释性,并且可以与许多传统的VAD方法相结合,以进一步增强其可解释性。在基准数据集上的大量实验表明,我们的方法不仅有效地检测了基于复杂交互的异常,而且在没有交互异常的数据集上也实现了最先进的性能。

🔬 方法详解

问题定义:现有半监督视频异常检测方法在检测涉及对象之间复杂交互的异常时面临挑战。这些方法通常缺乏对异常原因的解释,使得用户难以理解和信任检测结果。因此,需要一种能够有效检测复杂交互异常并提供可解释性的VAD方法。

核心思路:该论文的核心思路是利用多模态大型语言模型(MLLM)理解视频内容,并生成关于对象活动和交互的文本描述。这些文本描述作为视频内容的高级语义表示,可以用于区分正常和异常行为。通过比较测试视频与正常视频的文本描述,可以检测出异常事件。

技术框架:该框架主要包含以下几个阶段:1) 对象检测与跟踪:从视频帧中检测和跟踪对象。2) 对象对提取:选择视频中需要分析的对象对。3) MLLM查询:使用对象对在不同时刻的视觉信息查询MLLM,生成关于对象活动和交互的文本描述。4) 异常检测:比较测试视频的文本描述与正常视频的文本描述,利用相似度度量或分类器判断是否存在异常。5) 可解释性:通过分析MLLM生成的文本描述,提供对异常原因的解释。

关键创新:该方法最重要的创新点在于利用MLLM生成视频内容的高级文本描述,从而将视觉异常检测问题转化为文本比较问题。与直接使用MLLM进行异常判断的方法不同,该方法侧重于提取和解释对象活动和交互,从而提高了检测的准确性和可解释性。

关键设计:关键设计包括:1) 如何选择合适的MLLM模型。2) 如何设计MLLM的查询方式,以获得准确和丰富的文本描述。3) 如何定义文本描述之间的相似度度量,以有效区分正常和异常行为。4) 如何将该方法与传统的VAD方法相结合,以进一步提高性能和可解释性。具体的参数设置、损失函数和网络结构等细节在论文中未详细说明,属于未知信息。

📊 实验亮点

该方法在基准数据集上进行了广泛的实验,结果表明其不仅能有效检测基于复杂交互的异常,而且在没有交互异常的数据集上也取得了最先进的性能。具体的性能数据和对比基线在摘要中未提及,属于未知信息。该方法的可解释性是另一个亮点,通过分析MLLM生成的文本描述,可以提供对异常原因的解释。

🎯 应用场景

该研究成果可应用于智能监控、工业安全、医疗诊断等领域。例如,在智能监控中,可以检测异常人群行为或物体移动;在工业安全中,可以检测设备故障或违规操作;在医疗诊断中,可以辅助医生判断病灶或异常生理指标。该方法的可解释性有助于用户理解异常检测结果,从而提高决策效率和准确性,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Existing semi-supervised video anomaly detection (VAD) methods often struggle with detecting complex anomalies involving object interactions and generally lack explainability. To overcome these limitations, we propose a novel VAD framework leveraging Multimodal Large Language Models (MLLMs). Unlike previous MLLM-based approaches that make direct anomaly judgments at the frame level, our method focuses on extracting and interpreting object activity and interactions over time. By querying an MLLM with visual inputs of object pairs at different moments, we generate textual descriptions of the activity and interactions from nominal videos. These textual descriptions serve as a high-level representation of the activity and interactions of objects in a video. They are used to detect anomalies during test time by comparing them to textual descriptions found in nominal training videos. Our approach inherently provides explainability and can be combined with many traditional VAD methods to further enhance their interpretability. Extensive experiments on benchmark datasets demonstrate that our method not only detects complex interaction-based anomalies effectively but also achieves state-of-the-art performance on datasets without interaction anomalies.