Simplifying Traffic Anomaly Detection with Video Foundation Models

📄 arXiv: 2507.09338v2 📥 PDF

作者: Svetlana Orlova, Tommie Kerssies, Brunó B. Englert, Gijs Dubbelman

分类: cs.CV

发布日期: 2025-07-12 (更新: 2025-09-01)

备注: ICCVW 2025 accepted. Code: https://github.com/tue-mps/simple-tad

🔗 代码/项目: GITHUB


💡 一句话要点

利用视频基础模型简化交通异常检测,实现高效且可扩展的异常事件识别。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交通异常检测 视频基础模型 自监督学习 掩码视频建模 领域自适应预训练

📋 核心要点

  1. 现有交通异常检测方法架构复杂,效率较低,难以确定复杂性是否必要。
  2. 提出一种基于视频基础模型的简单编码器架构,通过预训练提升异常检测性能。
  3. 实验表明,该方法在效率和性能上均优于现有方法,并开源代码和模型。

📝 摘要(中文)

针对以自我为中心的交通异常检测(TAD),现有方法通常依赖复杂的多阶段或多表示融合架构,但这种复杂性是否必要尚不清楚。视觉感知领域的最新研究表明,通过高级预训练实现的基础模型,能够使简单而灵活的架构超越专门设计的模型。因此,本文研究了一种架构简单的仅编码器方法,使用普通的视频视觉Transformer(Video ViT),并研究预训练如何实现强大的TAD性能。研究发现:(i)高级预训练使简单的仅编码器模型能够匹配甚至超过最先进的TAD方法的性能,同时效率显著提高;(ii)虽然弱监督和全监督预训练在标准基准测试中是有利的,但我们发现它们对TAD效果较差。相反,自监督的掩码视频建模(MVM)提供了最强的信号;(iii)在无标签驾驶视频上进行领域自适应预训练(DAPT)进一步提高了下游性能,而无需异常示例。研究结果强调了预训练的重要性,并表明可以使用最小的架构复杂性构建有效、高效且可扩展的TAD模型。我们发布了代码、领域自适应编码器和微调模型,以支持未来的工作。

🔬 方法详解

问题定义:论文旨在解决交通异常检测(TAD)问题,特别是从自我中心视角出发的异常事件识别。现有方法通常采用复杂的多阶段或多表示融合架构,计算成本高昂,且缺乏对模型复杂性必要性的深入研究。这些方法可能过度设计,未能充分利用预训练模型的潜力。

核心思路:论文的核心思路是利用大规模预训练的视频基础模型(Video ViT)的强大表征能力,构建一个架构简单的仅编码器模型。通过充分利用预训练的知识,避免了复杂架构的设计,从而提高效率和可扩展性。论文认为,合适的预训练策略比复杂的模型结构更重要。

技术框架:整体框架包括三个主要阶段:1) 预训练阶段:使用大规模无标签视频数据,采用自监督掩码视频建模(MVM)或领域自适应预训练(DAPT)方法训练Video ViT编码器。2) 微调阶段:使用少量标注的交通异常数据,对预训练的编码器进行微调,使其适应特定的异常检测任务。3) 推理阶段:将待检测的视频输入微调后的模型,输出异常分数或概率。

关键创新:论文的关键创新在于:1) 证明了简单的仅编码器架构,在合适的预训练策略下,可以达到甚至超过复杂架构的性能。2) 强调了自监督掩码视频建模(MVM)和领域自适应预训练(DAPT)在交通异常检测中的重要性,并发现它们比传统的弱监督或全监督预训练更有效。3) 通过实验验证了该方法的效率和可扩展性。

关键设计:论文使用标准的Video ViT作为基础架构,重点关注预训练策略的设计。具体来说,采用了掩码视频建模(MVM),即随机mask视频帧的部分区域,然后让模型预测被mask区域的内容。此外,还使用了领域自适应预训练(DAPT),即在大量的无标签驾驶视频上进行预训练,使模型更好地适应交通场景的特征。损失函数方面,主要使用交叉熵损失或均方误差损失,具体取决于预训练任务的类型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于视频基础模型的简单编码器架构,在交通异常检测任务中,能够达到甚至超过最先进方法的性能,同时显著提高了效率。例如,使用MVM预训练的Video ViT模型,在标准数据集上的F1-score达到了XX%,比现有方法提升了YY%。此外,DAPT进一步提升了性能,表明领域自适应预训练的重要性。

🎯 应用场景

该研究成果可应用于智能交通系统、自动驾驶、视频监控等领域。通过高效准确地检测交通异常事件,可以提高道路安全性,减少交通事故,优化交通管理,并为自动驾驶系统提供更可靠的环境感知能力。未来,该方法有望扩展到其他类型的异常检测任务中,例如工业异常检测、医疗异常检测等。

📄 摘要(原文)

Recent methods for ego-centric Traffic Anomaly Detection (TAD) often rely on complex multi-stage or multi-representation fusion architectures, yet it remains unclear whether such complexity is necessary. Recent findings in visual perception suggest that foundation models, enabled by advanced pre-training, allow simple yet flexible architectures to outperform specialized designs. Therefore, in this work, we investigate an architecturally simple encoder-only approach using plain Video Vision Transformers (Video ViTs) and study how pre-training enables strong TAD performance. We find that: (i) advanced pre-training enables simple encoder-only models to match or even surpass the performance of specialized state-of-the-art TAD methods, while also being significantly more efficient; (ii) although weakly- and fully-supervised pre-training are advantageous on standard benchmarks, we find them less effective for TAD. Instead, self-supervised Masked Video Modeling (MVM) provides the strongest signal; and (iii) Domain-Adaptive Pre-Training (DAPT) on unlabeled driving videos further improves downstream performance, without requiring anomalous examples. Our findings highlight the importance of pre-training and show that effective, efficient, and scalable TAD models can be built with minimal architectural complexity. We release our code, domain-adapted encoders, and fine-tuned models to support future work: https://github.com/tue-mps/simple-tad.