SphereVAD: Training-Free Video Anomaly Detection via Geodesic Inference on the Unit Hypersphere
作者: Chao Huang, Penfei Wei, Wei Wang, Jie Wen, Zhihua Wang, Li Shen, Wenqi Ren, Xiaochun Cao
分类: cs.CV
发布日期: 2026-05-08
备注: 48 pages, 25 figures
💡 一句话要点
SphereVAD:基于单位超球面大地测量推理的免训练视频异常检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频异常检测 免训练学习 零样本学习 几何推理 多模态大语言模型
📋 核心要点
- 现有视频异常检测方法依赖大量标注或特定任务训练,限制了其在新场景的快速部署能力。
- SphereVAD利用预训练多模态大语言模型中间层特征的几何可区分性,避免了训练过程,实现了零样本异常检测。
- SphereVAD在三个基准数据集上取得了免训练方法中的最优结果,性能可与有监督方法媲美。
📝 摘要(中文)
视频异常检测(VAD)旨在自动识别未修剪监控视频中偏离正常模式的事件。现有方法普遍依赖于大规模标注或特定任务的训练流程,严重限制了其在新场景中的快速部署。我们观察到,预训练多模态大型语言模型(MLLM)的中间层特征已经编码了丰富的异常语义,但现有方法依赖于语言输出通路,未能利用这些表示中潜在的几何可区分性。基于这一发现,我们提出了SphereVAD,这是一个完全免训练、零样本的VAD框架,它将异常区分重构为单位超球面上的von Mises-Fisher (vMF)似然比大地测量推理,通过有原则的几何推理释放潜在的可区分性,而不是学习新的表示。具体来说,SphereVAD首先应用Frechet均值中心化来展开特征分布并消除领域偏差,然后采用整体场景注意力(HSA)来使用跨视频先验强化特征一致性,最后执行vMF引导的球面大地测量拉动(SGP)以将模糊片段与球面流形上的方向原型对齐。这种免训练的管道只需要最少的合成图像进行校准。SphereVAD在三个主要基准上建立了免训练方法中的最新结果,并且与完全监督的基线相比仍然具有竞争力。代码将在接收后提供。
🔬 方法详解
问题定义:视频异常检测旨在识别监控视频中不符合正常模式的事件。现有方法的主要痛点在于对大量标注数据的依赖,以及针对特定任务的训练过程,这限制了它们在新的、未见过的场景中的应用和泛化能力。
核心思路:SphereVAD的核心思路是利用预训练的多模态大语言模型(MLLM)中间层特征所蕴含的丰富语义信息和几何可区分性。通过将异常检测问题转化为在单位超球面上的几何推理问题,无需额外的训练即可区分正常和异常事件。这种思路避免了对大量标注数据的依赖,实现了真正的零样本异常检测。
技术框架:SphereVAD的整体框架包含以下三个主要阶段:1) Frechet均值中心化:用于展开特征分布,消除不同数据集之间的领域偏差。2) 整体场景注意力(HSA):利用跨视频的先验信息,增强特征的一致性。3) vMF引导的球面大地测量拉动(SGP):将模糊的视频片段与球面流形上的方向原型对齐,从而实现异常检测。整个框架无需训练,只需要少量的合成图像用于校准。
关键创新:SphereVAD最重要的创新点在于其免训练的设计和基于几何推理的异常检测方法。与以往依赖大量训练数据和特定任务训练的异常检测方法不同,SphereVAD充分利用了预训练模型中间层特征的几何特性,通过球面几何推理实现了零样本异常检测。这种方法避免了对大量标注数据的需求,极大地提高了模型在新场景中的泛化能力。
关键设计:SphereVAD的关键设计包括:1) Frechet均值中心化:选择合适的距离度量来计算Frechet均值,以适应不同的特征分布。2) 整体场景注意力(HSA):设计合适的注意力机制,以有效地利用跨视频的先验信息。3) vMF引导的球面大地测量拉动(SGP):选择合适的vMF分布参数,以准确地建模正常事件的分布,并设计合适的拉动策略,以将模糊片段与原型对齐。
🖼️ 关键图片
📊 实验亮点
SphereVAD在三个主流视频异常检测基准数据集上取得了显著的性能提升,成为免训练方法中的SOTA。实验结果表明,SphereVAD不仅超越了其他免训练方法,而且在某些情况下,性能甚至可以与完全监督的方法相媲美。这充分证明了该方法在零样本视频异常检测方面的有效性和优越性。
🎯 应用场景
SphereVAD具有广泛的应用前景,例如智能监控、工业异常检测、医疗影像分析等领域。该方法无需训练,可以快速部署到新的场景中,降低了异常检测的成本和难度。未来,该方法可以与更多的预训练模型和几何推理技术相结合,进一步提升异常检测的性能和泛化能力。
📄 摘要(原文)
Video anomaly detection (VAD) aims to automatically identify events that deviate from normal patterns in untrimmed surveillance videos. Existing methods universally depend on large-scale annotations or task-specific training procedures, severely limiting their rapid deployment to novel scenes. We observe that intermediate-layer features of pre-trained multimodal large language models (MLLMs) already encode rich anomaly semantics, yet existing approaches rely on the language output pathway and fail to exploit the geometric discriminability latent in these representations. Based on this finding, we propose SphereVAD, a fully training-free, zero-shot VAD framework that recasts anomaly discrimination as von Mises-Fisher (vMF) likelihood-ratio geodesic inference on the unit hypersphere, unleashing latent discriminability through principled geometric reasoning rather than learning new representations. Specifically, SphereVAD first applies Frechet mean centering to unfold feature distributions and eliminate domain biases, then employs Holistic Scene Attention (HSA) to reinforce feature consistency using cross-video priors, and finally performs vMF-guided Spherical Geodesic Pulling (SGP) to align ambiguous segments with directional prototypes on the spherical manifold. This training-free pipeline requires only minimal synthetic images for calibration. SphereVAD establishes new state-of-the-art results among training-free approaches on three major benchmarks and remains competitive with fully supervised baselines. Code will be available upon acceptance.