Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection
作者: Zhaolin Cai, Fan Li, Huiyu Duan, Lijun He, Guangtao Zhai
分类: cs.CV
发布日期: 2026-02-27
备注: Accepted by ICLR 2026
💡 一句话要点
提出SteerVAD,通过引导和修正冻结多模态LLM中的潜在表征流形,解决视频异常检测问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频异常检测 多模态LLM 表征学习 注意力机制 无微调学习 领域自适应 异常检测
📋 核心要点
- 现有VAD方法依赖大量标注数据和完全训练,成本高昂,而直接应用冻结MLLM效果有限,无法适应视频上下文。
- SteerVAD通过引导和修正MLLM内部表征,主动干预模型,从而提升对细微异常的检测能力。
- 实验表明,SteerVAD在主流基准上取得了SOTA性能,且仅需少量训练数据,验证了其有效性。
📝 摘要(中文)
视频异常检测(VAD)旨在识别视频中的异常事件。传统的VAD方法通常面临标注数据成本高和需要完全训练的问题。最近的一些工作探索了利用冻结的多模态大型语言模型(MLLM),以无需微调的方式执行VAD。然而,由于它们直接继承了预训练的偏差,并且无法使内部表征适应特定的视频上下文,导致难以处理细微或模糊的异常,因此性能受到限制。为了解决这些限制,我们提出了一种新颖的干预框架,称为SteerVAD,通过从被动读取转变为主动引导和修正内部表征,从而推进了基于MLLM的VAD。我们的方法首先利用无梯度表征可分离性分析(RSA)来识别顶层注意力头,作为对VAD最具区分性的潜在异常专家(LAE)。然后,分层元控制器(HMC)通过联合调节全局上下文和这些LAE的输出,生成动态修正信号。这些信号直接对LAE表征流形执行有针对性的各向异性缩放,放大与异常相关的维度,同时抑制固有的偏差。在主流基准上的大量实验表明,我们的方法在仅需1%训练数据的无微调方法中实现了最先进的性能,确立了其作为视频异常检测的一个强大的新方向。代码将在发表后发布。
🔬 方法详解
问题定义:视频异常检测旨在识别视频中不寻常的事件。现有基于冻结多模态LLM的方法,由于直接继承了预训练的偏差,无法很好地适应特定视频的上下文,导致对细微或模糊异常的检测效果不佳。这些方法缺乏对内部表征的主动调整机制,难以有效区分正常和异常事件。
核心思路:SteerVAD的核心思路是通过主动干预MLLM的内部表征,使其能够更好地适应视频异常检测任务。具体来说,它通过识别对异常检测具有高度区分性的注意力头(即潜在异常专家LAE),并利用分层元控制器(HMC)生成动态修正信号,对这些LAE的表征流形进行有针对性的调整。这种方法旨在放大与异常相关的维度,同时抑制不相关的偏差,从而提高异常检测的准确性。
技术框架:SteerVAD的整体框架包含以下几个主要阶段:1) 潜在异常专家(LAE)识别:利用无梯度表征可分离性分析(RSA)来识别MLLM中对VAD最具区分性的注意力头。2) 分层元控制器(HMC):HMC接收全局上下文信息和LAE的输出,生成动态修正信号。3) 表征流形引导和修正:使用HMC生成的修正信号,对LAE的表征流形进行各向异性缩放,从而放大异常相关维度,抑制偏差。
关键创新:SteerVAD的关键创新在于其主动干预MLLM内部表征的方式。与以往被动利用预训练模型的方法不同,SteerVAD通过识别关键的注意力头并对其表征进行动态调整,实现了对模型的精细化控制。这种方法能够有效地克服预训练偏差,并使模型更好地适应特定的视频异常检测任务。
关键设计:HMC的设计是关键。它需要同时考虑全局上下文和LAE的输出,以生成合适的修正信号。修正信号的设计也至关重要,需要能够实现对表征流形的各向异性缩放,即放大异常相关维度,同时抑制不相关维度。具体的参数设置和损失函数(如果存在)在论文中未详细说明,属于未知信息。
📊 实验亮点
SteerVAD在主流视频异常检测基准测试中取得了最先进的性能,尤其是在无需微调的方法中。该方法仅需1%的训练数据,即可达到甚至超过其他需要大量训练数据的模型的性能。具体的性能数据和对比基线在摘要中未给出,属于未知信息,但强调了其在无微调方法中的优越性。
🎯 应用场景
SteerVAD在公共安全、智能监控、工业质检等领域具有广泛的应用前景。例如,可以用于监控视频中的异常行为检测,提高安保效率;在工业生产线上,可以用于检测产品表面的缺陷,提升产品质量。该研究的未来影响在于,它提供了一种有效利用预训练模型进行特定任务微调的新思路,降低了模型训练的成本和难度。
📄 摘要(原文)
Video anomaly detection (VAD) aims to identify abnormal events in videos. Traditional VAD methods generally suffer from the high costs of labeled data and full training, thus some recent works have explored leveraging frozen multi-modal large language models (MLLMs) in a tuning-free manner to perform VAD. However, their performance is limited as they directly inherit pre-training biases and cannot adapt internal representations to specific video contexts, leading to difficulties in handling subtle or ambiguous anomalies. To address these limitations, we propose a novel intervention framework, termed SteerVAD, which advances MLLM-based VAD by shifting from passively reading to actively steering and rectifying internal representations. Our approach first leverages the gradient-free representational separability analysis (RSA) to identify top attention heads as latent anomaly experts (LAEs) which are most discriminative for VAD. Then a hierarchical meta-controller (HMC) generates dynamic rectification signals by jointly conditioning on global context and these LAE outputs. The signals execute targeted, anisotropic scaling directly upon the LAE representation manifolds, amplifying anomaly-relevant dimensions while suppressing inherent biases. Extensive experiments on mainstream benchmarks demonstrate our method achieves state-of-the-art performance among tuning-free approaches requiring only 1% of training data, establishing it as a powerful new direction for video anomaly detection. The code will be released upon the publication.