SOVABench: A Vehicle Surveillance Action Retrieval Benchmark for Multimodal Large Language Models

作者: Oriol Rabasseda, Zenjie Li, Kamal Nasrollahi, Sergio Escalera

分类: cs.CV

发布日期: 2026-01-08

备注: This work has been accepted at Real World Surveillance: Applications and Challenges, 6th (in WACV Workshops)

💡 一句话要点

提出SOVABench车辆监控行为检索基准，用于评估多模态大语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 车辆监控 行为检索 多模态大语言模型 视频理解 零样本学习

📋 核心要点

现有视频检索基准缺乏对监控视频中车辆行为细粒度区分的评估，无法满足实际需求。
利用多模态大语言模型生成可解释的描述，并从中提取嵌入，实现无需训练的行为检索。
SOVABench基准和MLLM框架在车辆行为检索和空间/计数任务上均表现出优异性能。

📝 摘要（中文）

本文提出SOVABench（Surveillance Opposite Vehicle Actions Benchmark），这是一个真实的车辆相关行为检索基准，构建自监控录像。现有基于内容的视频检索基准大多关注场景级别的相似性，而忽略了监控中所需的行为区分能力。SOVABench定义了两种评估协议（pair间和pair内），以评估跨行为区分和时间方向理解能力。实验表明，尽管行为区分对人类观察者来说通常很直观，但对于最先进的视觉和多模态模型来说仍然具有挑战性。本文还利用多模态大语言模型（MLLM）的视觉推理和指令跟随能力，提出了一个无需训练的框架，从MLLM生成的图像和视频描述中产生可解释的嵌入。该框架在SOVABench以及对比视觉-语言模型经常失败的几个空间和计数基准上取得了良好的性能。代码、注释和构建基准的说明已公开。

🔬 方法详解

问题定义：论文旨在解决现有视频检索基准在车辆监控场景下，缺乏对车辆行为细粒度区分能力的问题。现有方法主要关注场景级别的相似性，无法有效区分车辆的各种行为，例如掉头、停车等，这在智能监控领域是一个重要的痛点。

核心思路：论文的核心思路是利用多模态大语言模型（MLLM）的强大视觉推理和指令跟随能力，生成对图像和视频内容的可解释描述，然后从这些描述中提取嵌入向量。这种方法避免了直接训练模型来区分行为，而是通过MLLM的先验知识来实现行为的理解和区分。

技术框架：整体框架包含以下几个主要步骤：1) 输入图像或视频片段；2) 使用MLLM生成对输入内容的多模态描述；3) 从MLLM生成的描述中提取嵌入向量；4) 使用嵌入向量进行行为检索，例如使用余弦相似度计算不同视频片段之间的相似度。该框架是训练自由的，不需要针对特定数据集进行微调。

关键创新：最重要的技术创新点在于利用MLLM生成可解释的描述，并从中提取嵌入向量。这种方法与传统的对比视觉-语言模型不同，后者通常需要大量的训练数据才能学习到有效的特征表示。通过利用MLLM的先验知识，该方法可以在无需训练的情况下实现良好的行为区分能力。

关键设计：论文的关键设计包括如何选择合适的MLLM模型，以及如何设计提示语（prompt）来引导MLLM生成高质量的描述。此外，如何从MLLM生成的描述中提取有效的嵌入向量也是一个重要的设计考虑。具体的技术细节，例如使用的MLLM模型、提示语的设计以及嵌入向量的提取方法，在论文中可能有所描述，但摘要中未详细说明，属于未知信息。

📊 实验亮点

该框架在SOVABench基准上取得了显著的性能，证明了MLLM在车辆行为检索方面的有效性。此外，该方法在几个空间和计数基准上也表现出色，超越了传统的对比视觉-语言模型。具体的性能数据和提升幅度在摘要中未给出，属于未知信息。

🎯 应用场景

该研究成果可应用于智能交通监控、车辆行为分析、异常事件检测等领域。例如，可以利用该技术自动识别违规停车、逆行等行为，提高交通管理的效率和智能化水平。此外，该方法还可以扩展到其他类型的监控场景，例如人群行为分析、安全监控等。

📄 摘要（原文）

Automatic identification of events and recurrent behavior analysis are critical for video surveillance. However, most existing content-based video retrieval benchmarks focus on scene-level similarity and do not evaluate the action discrimination required in surveillance. To address this gap, we introduce SOVABench (Surveillance Opposite Vehicle Actions Benchmark), a real-world retrieval benchmark built from surveillance footage and centered on vehicle-related actions. SOVABench defines two evaluation protocols (inter-pair and intra-pair) to assess cross-action discrimination and temporal direction understanding. Although action distinctions are generally intuitive for human observers, our experiments show that they remain challenging for state-of-the-art vision and multimodal models. Leveraging the visual reasoning and instruction-following capabilities of Multimodal Large Language Models (MLLMs), we present a training-free framework for producing interpretable embeddings from MLLM-generated descriptions for both images and videos. The framework achieves strong performance on SOVABench as well as on several spatial and counting benchmarks where contrastive Vision-Language Models often fail. The code, annotations, and instructions to construct the benchmark are publicly available.

SOVABench: A Vehicle Surveillance Action Retrieval Benchmark for Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册