A Benchmark for Crime Surveillance Video Analysis with Large Models

作者: Haoran Chen, Dong Yi, Moyan Cao, Chensen Huang, Guibo Zhu, Jinqiao Wang

分类: cs.CV

发布日期: 2025-02-13

💡 一句话要点

提出UCVL：一个用于犯罪监控视频分析的大模型评测基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 犯罪监控视频分析 多模态大语言模型 基准测试 异常检测 视频理解

📋 核心要点

现有犯罪监控视频分析基准缺乏MLLM风格的问答和评估算法，无法充分评估大模型对异常概念的理解能力。
论文提出UCVL基准，包含大量视频和重组的注释，并设计了六种问题类型，生成多样化的QA对，用于评估MLLM。
通过对多个MLLM进行基准测试，验证了UCVL的可靠性。在UCVL上微调LLaVA-OneVision，性能提升验证了数据的质量。

📝 摘要（中文）

异常行为分析在监控视频中至关重要。近年来，多模态大语言模型（MLLMs）在各个领域超越了特定任务模型。尽管MLLMs具有多功能性，但由于该领域过时的基准测试未能提供MLLM风格的问答和评估模型开放式文本响应的有效算法，因此它们理解异常概念和细节的能力尚未得到充分研究。为了填补这一空白，我们提出了一个用于犯罪监控视频分析的大模型基准UCVL，包括来自UCF-Crime和UCF-Crime Annotation数据集的1,829个视频和重组的注释。我们设计了六种类型的问题并生成了多样化的QA对。然后，我们开发了详细的指令，并使用OpenAI的GPT-4o进行准确评估。我们对八个参数范围从0.5B到40B的主流MLLM进行了基准测试，结果证明了该基准的可靠性。此外，我们在UCVL的训练集上微调了LLaVA-OneVision。改进验证了我们的数据在视频异常分析方面的高质量。

🔬 方法详解

问题定义：现有犯罪监控视频分析的基准测试集已经过时，缺乏针对多模态大语言模型（MLLM）的评估方式。具体来说，现有基准缺乏MLLM风格的问答对，以及有效评估模型开放式文本回复的算法。这导致无法充分评估MLLM在理解异常概念和细节方面的能力。现有方法难以适应MLLM的评估需求，阻碍了MLLM在该领域的应用。

核心思路：论文的核心思路是构建一个专门针对MLLM的犯罪监控视频分析基准UCVL。通过重新组织现有数据集的标注，并设计多种类型的问答对，UCVL能够更全面地评估MLLM对视频中异常事件的理解和推理能力。同时，论文还开发了详细的评估指令，并利用GPT-4o进行自动评估，从而提高评估的效率和准确性。

技术框架：UCVL基准的构建流程主要包括以下几个阶段： 1. 数据收集与重组：从UCF-Crime和UCF-Crime Annotation数据集中收集视频数据，并对现有标注进行重组，使其更适合MLLM的评估。 2. 问题设计与生成：设计六种类型的问题，涵盖异常事件的各个方面，并生成多样化的问答对，以全面评估MLLM的能力。 3. 评估指令开发：开发详细的评估指令，指导GPT-4o对MLLM的回答进行评分，确保评估的客观性和一致性。 4. 基准测试与微调：对多个MLLM进行基准测试，评估其在UCVL上的性能。同时，在UCVL的训练集上微调LLaVA-OneVision，验证数据的质量。

关键创新：UCVL基准的关键创新在于其针对MLLM的评估方式。与传统的基准测试相比，UCVL更加注重评估MLLM对异常概念的理解和推理能力，并采用了MLLM风格的问答对和自动评估方法。此外，UCVL还提供了高质量的视频数据和标注，为MLLM的研究和应用提供了有力的支持。

关键设计：UCVL基准的关键设计包括： 1. 问题类型：设计了六种类型的问题，包括描述性问题、推理性问题、比较性问题等，以全面评估MLLM的能力。 2. 评估指标：采用了多种评估指标，包括准确率、召回率、F1值等，以综合评估MLLM的性能。 3. GPT-4o评估：利用GPT-4o对MLLM的回答进行自动评估，提高了评估的效率和准确性。 4. 数据增强：通过数据增强技术，增加了训练数据的多样性，提高了模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

论文对八个主流MLLM进行了基准测试，参数范围从0.5B到40B，结果表明UCVL基准具有可靠性。在UCVL训练集上微调LLaVA-OneVision后，性能得到显著提升，验证了UCVL数据在视频异常分析方面的高质量。这些实验结果为MLLM在犯罪监控视频分析领域的应用提供了有力的支持。

🎯 应用场景

该研究成果可应用于智能安防、智慧城市等领域。通过利用MLLM对监控视频进行分析，可以自动检测和识别犯罪行为，提高安全防范能力。此外，该基准的构建方法也可以推广到其他视频分析任务中，促进相关领域的发展。未来，可以进一步研究如何利用MLLM进行更复杂的视频分析任务，例如预测犯罪行为的发生。

📄 摘要（原文）

Anomaly analysis in surveillance videos is a crucial topic in computer vision. In recent years, multimodal large language models (MLLMs) have outperformed task-specific models in various domains. Although MLLMs are particularly versatile, their abilities to understand anomalous concepts and details are insufficiently studied because of the outdated benchmarks of this field not providing MLLM-style QAs and efficient algorithms to assess the model's open-ended text responses. To fill this gap, we propose a benchmark for crime surveillance video analysis with large models denoted as UCVL, including 1,829 videos and reorganized annotations from the UCF-Crime and UCF-Crime Annotation datasets. We design six types of questions and generate diverse QA pairs. Then we develop detailed instructions and use OpenAI's GPT-4o for accurate assessment. We benchmark eight prevailing MLLMs ranging from 0.5B to 40B parameters, and the results demonstrate the reliability of this bench. Moreover, we finetune LLaVA-OneVision on UCVL's training set. The improvement validates our data's high quality for video anomaly analysis.

A Benchmark for Crime Surveillance Video Analysis with Large Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理