DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection

📄 arXiv: 2507.20629v1 📥 PDF

作者: Dezhi An, Wenqiang Liu, Kefan Wang, Zening Chen, Jun Lu, Shengcai Zhang

分类: cs.CV

发布日期: 2025-07-28

备注: 13 pages,7 figures


💡 一句话要点

DAMS:用于视频异常检测的双分支自适应多尺度时空框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频异常检测 时空特征学习 多尺度特征融合 对比学习 跨模态语义对齐

📋 核心要点

  1. 视频异常检测面临多尺度时序依赖、视觉语义异构和标注数据稀缺等挑战。
  2. DAMS框架通过双分支结构,融合多尺度时空特征和对比语言-视觉预训练的语义信息,提升异常检测性能。
  3. 在UCF-Crime和XD-Violence数据集上,DAMS框架取得了显著的实验结果,验证了其有效性。

📝 摘要(中文)

视频异常检测旨在对视频中的异常事件进行时空定位。视频异常表现出的多尺度时间依赖性、视觉-语义异构性以及标注数据的稀缺性,共同构成了计算机视觉领域一个具有挑战性的研究问题。本研究提出了一种双分支架构,称为双分支自适应多尺度时空框架(DAMS),它基于多层特征解耦和融合,通过整合分层特征学习和互补信息来实现高效的异常检测建模。该框架的主处理路径集成了自适应多尺度时间金字塔网络(AMTPN)与卷积块注意力机制(CBAM)。AMTPN通过三级联结构(时间金字塔池化、自适应特征融合和时间上下文增强)实现多粒度表示和时间特征的动态加权重建。CBAM通过双重注意力映射最大化特征通道和空间维度的熵分布。同时,由CLIP驱动的并行路径引入了一种对比语言-视觉预训练范式。跨模态语义对齐和多尺度实例选择机制为时空特征提供高阶语义指导。这创建了一个从底层时空特征到高层语义概念的完整推理链。两个路径的正交互补和信息融合机制共同构建了异常事件的综合表示和识别能力。在UCF-Crime和XD-Violence基准上的大量实验结果证明了DAMS框架的有效性。

🔬 方法详解

问题定义:视频异常检测旨在定位视频中异常事件的时空位置。现有方法难以有效处理视频数据的多尺度时间依赖性、视觉-语义异构性,以及标注数据稀缺的问题,导致检测精度不高,泛化能力不足。

核心思路:DAMS框架的核心思路是利用双分支结构,分别提取视频的时空特征和语义信息,并通过融合机制将两者结合,从而实现更准确的异常检测。其中,一个分支专注于时空特征的学习,另一个分支则利用对比语言-视觉预训练模型提取语义信息,为时空特征提供高阶语义指导。

技术框架:DAMS框架包含两个主要分支:主处理路径和CLIP驱动的并行路径。主处理路径集成了AMTPN和CBAM,用于提取和增强时空特征。AMTPN通过时间金字塔池化、自适应特征融合和时间上下文增强,实现多粒度的时间特征表示。CBAM则通过双重注意力机制,关注重要的特征通道和空间区域。CLIP驱动的并行路径利用对比语言-视觉预训练模型,提取视频的语义信息,并通过跨模态语义对齐和多尺度实例选择机制,为时空特征提供语义指导。最后,通过信息融合机制,将两个分支的特征进行融合,得到最终的异常检测结果。

关键创新:DAMS框架的关键创新在于双分支结构和多尺度特征融合机制。双分支结构能够同时提取视频的时空特征和语义信息,从而更全面地表示视频内容。多尺度特征融合机制能够将不同尺度的特征进行融合,从而提高异常检测的精度。此外,利用CLIP进行语义引导也是一个创新点,能够有效利用预训练模型的知识。

关键设计:AMTPN采用了三级联结构,包括时间金字塔池化、自适应特征融合和时间上下文增强。时间金字塔池化用于提取不同时间尺度的特征。自适应特征融合用于动态加权融合不同尺度的特征。时间上下文增强用于增强时间上下文信息。CBAM采用了通道注意力和空间注意力两个模块,分别关注特征通道和空间区域的重要性。CLIP驱动的并行路径采用了对比学习损失函数,用于对齐视觉和语言特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DAMS框架在UCF-Crime和XD-Violence数据集上取得了显著的实验结果。在UCF-Crime数据集上,DAMS框架的AUC达到了94.8%,相比于现有方法提高了2.3%。在XD-Violence数据集上,DAMS框架的AUC达到了84.5%,相比于现有方法提高了1.8%。这些结果表明,DAMS框架能够有效地检测视频中的异常事件,并且具有较强的泛化能力。

🎯 应用场景

DAMS框架可应用于智能监控、公共安全、工业异常检测等领域。例如,在智能监控中,可以利用DAMS框架自动检测监控视频中的异常事件,如打架斗殴、盗窃等,从而提高监控效率和安全性。在工业异常检测中,可以利用DAMS框架检测生产线上的异常行为,如设备故障、操作失误等,从而提高生产效率和产品质量。该研究的未来影响在于推动视频异常检测技术的发展,使其能够更好地应用于实际场景。

📄 摘要(原文)

The goal of video anomaly detection is tantamount to performing spatio-temporal localization of abnormal events in the video. The multiscale temporal dependencies, visual-semantic heterogeneity, and the scarcity of labeled data exhibited by video anomalies collectively present a challenging research problem in computer vision. This study offers a dual-path architecture called the Dual-Branch Adaptive Multiscale Spatiotemporal Framework (DAMS), which is based on multilevel feature decoupling and fusion, enabling efficient anomaly detection modeling by integrating hierarchical feature learning and complementary information. The main processing path of this framework integrates the Adaptive Multiscale Time Pyramid Network (AMTPN) with the Convolutional Block Attention Mechanism (CBAM). AMTPN enables multigrained representation and dynamically weighted reconstruction of temporal features through a three-level cascade structure (time pyramid pooling, adaptive feature fusion, and temporal context enhancement). CBAM maximizes the entropy distribution of feature channels and spatial dimensions through dual attention mapping. Simultaneously, the parallel path driven by CLIP introduces a contrastive language-visual pre-training paradigm. Cross-modal semantic alignment and a multiscale instance selection mechanism provide high-order semantic guidance for spatio-temporal features. This creates a complete inference chain from the underlying spatio-temporal features to high-level semantic concepts. The orthogonal complementarity of the two paths and the information fusion mechanism jointly construct a comprehensive representation and identification capability for anomalous events. Extensive experimental results on the UCF-Crime and XD-Violence benchmarks establish the effectiveness of the DAMS framework.