SOVABench: A Vehicle Surveillance Action Retrieval Benchmark for Multimodal Large Language Models

📄 arXiv: 2601.04824v1 📥 PDF

作者: Oriol Rabasseda, Zenjie Li, Kamal Nasrollahi, Sergio Escalera

分类: cs.CV

发布日期: 2026-01-08

备注: This work has been accepted at Real World Surveillance: Applications and Challenges, 6th (in WACV Workshops)


💡 一句话要点

提出SOVABench车辆监控行为检索基准,用于评估多模态大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 车辆监控 行为检索 多模态大语言模型 视频理解 零样本学习

📋 核心要点

  1. 现有视频检索基准缺乏对监控视频中车辆行为细粒度区分的评估,无法满足实际需求。
  2. 利用多模态大语言模型生成可解释的描述,并从中提取嵌入,实现无需训练的行为检索。
  3. SOVABench基准和MLLM框架在车辆行为检索和空间/计数任务上均表现出优异性能。

📝 摘要(中文)

本文提出SOVABench(Surveillance Opposite Vehicle Actions Benchmark),这是一个真实的车辆相关行为检索基准,构建自监控录像。现有基于内容的视频检索基准大多关注场景级别的相似性,而忽略了监控中所需的行为区分能力。SOVABench定义了两种评估协议(pair间和pair内),以评估跨行为区分和时间方向理解能力。实验表明,尽管行为区分对人类观察者来说通常很直观,但对于最先进的视觉和多模态模型来说仍然具有挑战性。本文还利用多模态大语言模型(MLLM)的视觉推理和指令跟随能力,提出了一个无需训练的框架,从MLLM生成的图像和视频描述中产生可解释的嵌入。该框架在SOVABench以及对比视觉-语言模型经常失败的几个空间和计数基准上取得了良好的性能。代码、注释和构建基准的说明已公开。

🔬 方法详解

问题定义:论文旨在解决现有视频检索基准在车辆监控场景下,缺乏对车辆行为细粒度区分能力的问题。现有方法主要关注场景级别的相似性,无法有效区分车辆的各种行为,例如掉头、停车等,这在智能监控领域是一个重要的痛点。

核心思路:论文的核心思路是利用多模态大语言模型(MLLM)的强大视觉推理和指令跟随能力,生成对图像和视频内容的可解释描述,然后从这些描述中提取嵌入向量。这种方法避免了直接训练模型来区分行为,而是通过MLLM的先验知识来实现行为的理解和区分。

技术框架:整体框架包含以下几个主要步骤:1) 输入图像或视频片段;2) 使用MLLM生成对输入内容的多模态描述;3) 从MLLM生成的描述中提取嵌入向量;4) 使用嵌入向量进行行为检索,例如使用余弦相似度计算不同视频片段之间的相似度。该框架是训练自由的,不需要针对特定数据集进行微调。

关键创新:最重要的技术创新点在于利用MLLM生成可解释的描述,并从中提取嵌入向量。这种方法与传统的对比视觉-语言模型不同,后者通常需要大量的训练数据才能学习到有效的特征表示。通过利用MLLM的先验知识,该方法可以在无需训练的情况下实现良好的行为区分能力。

关键设计:论文的关键设计包括如何选择合适的MLLM模型,以及如何设计提示语(prompt)来引导MLLM生成高质量的描述。此外,如何从MLLM生成的描述中提取有效的嵌入向量也是一个重要的设计考虑。具体的技术细节,例如使用的MLLM模型、提示语的设计以及嵌入向量的提取方法,在论文中可能有所描述,但摘要中未详细说明,属于未知信息。

📊 实验亮点

该框架在SOVABench基准上取得了显著的性能,证明了MLLM在车辆行为检索方面的有效性。此外,该方法在几个空间和计数基准上也表现出色,超越了传统的对比视觉-语言模型。具体的性能数据和提升幅度在摘要中未给出,属于未知信息。

🎯 应用场景

该研究成果可应用于智能交通监控、车辆行为分析、异常事件检测等领域。例如,可以利用该技术自动识别违规停车、逆行等行为,提高交通管理的效率和智能化水平。此外,该方法还可以扩展到其他类型的监控场景,例如人群行为分析、安全监控等。

📄 摘要(原文)

Automatic identification of events and recurrent behavior analysis are critical for video surveillance. However, most existing content-based video retrieval benchmarks focus on scene-level similarity and do not evaluate the action discrimination required in surveillance. To address this gap, we introduce SOVABench (Surveillance Opposite Vehicle Actions Benchmark), a real-world retrieval benchmark built from surveillance footage and centered on vehicle-related actions. SOVABench defines two evaluation protocols (inter-pair and intra-pair) to assess cross-action discrimination and temporal direction understanding. Although action distinctions are generally intuitive for human observers, our experiments show that they remain challenging for state-of-the-art vision and multimodal models. Leveraging the visual reasoning and instruction-following capabilities of Multimodal Large Language Models (MLLMs), we present a training-free framework for producing interpretable embeddings from MLLM-generated descriptions for both images and videos. The framework achieves strong performance on SOVABench as well as on several spatial and counting benchmarks where contrastive Vision-Language Models often fail. The code, annotations, and instructions to construct the benchmark are publicly available.