QVAD: A Question-Centric Agentic Framework for Efficient and Training-Free Video Anomaly Detection

📄 arXiv: 2604.03040 📥 PDF

作者: Lokman Bekit, Hamza Karim, Nghia T Nguyen, Yasin Yilmaz

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

提出QVAD框架以解决视频异常检测中的静态查询问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频异常检测 视觉-语言模型 动态查询 轻量模型 边缘计算

📋 核心要点

  1. 现有视频异常检测方法通常依赖于庞大的基础模型,导致资源消耗高且效率低下。
  2. QVAD框架通过动态对话的方式迭代细化查询,提升了轻量模型的性能,避免了参数更新的复杂性。
  3. 在多个数据集上,QVAD展现出优越的性能和泛化能力,尤其在资源受限的环境中表现突出。

📝 摘要(中文)

视频异常检测(VAD)是计算机视觉中的一个基本挑战,尤其由于异常的开放集特性。尽管近期无训练的方法利用了视觉-语言模型(VLMs)展现出潜力,但通常依赖于庞大且资源密集的基础模型来弥补静态提示的模糊性。我们认为,VAD的瓶颈不在于模型容量,而在于查询的静态特性。我们提出了QVAD,一个以问题为中心的代理框架,将VLM与大语言模型(LLM)的交互视为动态对话。通过基于视觉上下文迭代地细化查询,我们的LLM代理引导较小的VLM生成高保真度的描述和精确的语义推理,而无需参数更新。这种“提示更新”机制有效释放了轻量模型的潜在能力,使其在UCF-Crime、XD-Violence和UBNormal数据集上实现了最先进的性能,并在单场景ComplexVAD数据集上展示了卓越的泛化能力。重要的是,QVAD在内存占用极小的情况下实现了高推理速度,使得先进的VAD能力能够在资源受限的边缘设备上部署。

🔬 方法详解

问题定义:论文要解决视频异常检测中的静态查询问题,现有方法往往依赖于大型模型,导致效率低下和资源消耗过大。

核心思路:论文提出QVAD框架,通过将VLM与LLM的交互视为动态对话,迭代细化查询,从而提升轻量模型的性能。这样的设计能够有效利用视觉上下文,避免了传统方法的静态限制。

技术框架:QVAD框架主要包括两个模块:一个是大语言模型(LLM)作为代理,负责引导查询;另一个是较小的视觉-语言模型(VLM),负责生成描述和推理。整个流程通过动态对话实现查询的迭代更新。

关键创新:QVAD的最大创新在于其“提示更新”机制,使得轻量模型能够在不更新参数的情况下,发挥出更高的性能。这与现有方法依赖于庞大模型的本质区别在于,QVAD强调了动态查询的重要性。

关键设计:在QVAD中,关键设计包括如何选择和更新查询的策略,以及如何在视觉上下文中进行有效的语义推理。这些设计确保了模型在资源受限的情况下仍能保持高效的推理速度和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在UCF-Crime、XD-Violence和UBNormal数据集上,QVAD实现了最先进的性能,显著减少了所需参数量。此外,在ComplexVAD数据集上展现了卓越的泛化能力,推理速度快且内存占用低,适合边缘设备部署。

🎯 应用场景

QVAD框架在视频监控、智能交通、公共安全等领域具有广泛的应用潜力。其高效的异常检测能力使得在资源有限的边缘设备上也能实现实时监控,提升了安全性和响应速度。未来,QVAD可能会推动更多智能监控系统的开发与应用。

📄 摘要(原文)

Video Anomaly Detection (VAD) is a fundamental challenge in computer vision, particularly due to the open-set nature of anomalies. While recent training-free approaches utilizing Vision-Language Models (VLMs) have shown promise, they typically rely on massive, resource-intensive foundation models to compensate for the ambiguity of static prompts. We argue that the bottleneck in VAD is not necessarily model capacity, but rather the static nature of inquiry. We propose QVAD, a question-centric agentic framework that treats VLM-LLM interaction as a dynamic dialogue. By iteratively refining queries based on visual context, our LLM agent guides smaller VLMs to produce high-fidelity captions and precise semantic reasoning without parameter updates. This ``prompt-updating" mechanism effectively unlocks the latent capabilities of lightweight models, enabling state-of-the-art performance on UCF-Crime, XD-Violence, and UBNormal using a fraction of the parameters required by competing methods. We further demonstrate exceptional generalizability on the single-scene ComplexVAD dataset. Crucially, QVAD achieves high inference speeds with minimal memory footprints, making advanced VAD capabilities deployable on resource-constrained edge devices.