MITS: A Large-Scale Multimodal Benchmark Dataset for Intelligent Traffic Surveillance
作者: Kaikai Zhao, Zhaoxiang Liu, Peng Wang, Xin Wang, Zhicheng Ma, Yajun Xu, Wenjing Zhang, Yibing Nan, Kai Wang, Shiguo Lian
分类: cs.CV, cs.AI
发布日期: 2025-09-10
备注: accepted by Image and Vision Computing
💡 一句话要点
提出MITS大规模多模态数据集,提升智能交通监控领域LMM性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 智能交通监控 多模态学习 大型数据集 视觉问答 图像描述 目标检测 事件识别
📋 核心要点
- 通用LMM在ITS领域性能受限,缺乏专用多模态数据集是主要瓶颈。
- 构建大规模MITS数据集,包含真实ITS图像、图像描述和视觉问答对,覆盖多种ITS任务。
- 在MITS上微调LMM,显著提升了模型在ITS应用中的性能,并开源相关资源。
📝 摘要(中文)
通用领域的大型多模态模型(LMM)在各种图像-文本任务中取得了显著进展。然而,由于缺乏专门的多模态数据集,它们在智能交通监控(ITS)领域的性能仍然有限。为了解决这个问题,我们推出了MITS(多模态智能交通监控),这是第一个专门为ITS设计的大规模多模态基准数据集。MITS包含170,400张独立收集的真实ITS图像,这些图像来自交通监控摄像头,并标注了八个主要类别和24个子类别的ITS特定对象和事件,涵盖了各种环境条件。此外,通过系统的数据生成流程,我们生成了高质量的图像描述和500万个指令跟随型视觉问答对,解决了五个关键的ITS任务:对象和事件识别、对象计数、对象定位、背景分析和事件推理。为了证明MITS的有效性,我们在该数据集上微调了主流的LMM,从而能够开发ITS特定的应用程序。实验结果表明,MITS显著提高了LMM在ITS应用中的性能,例如将LLaVA-1.5的性能从0.494提高到0.905(+83.2%)。我们将数据集、代码和模型开源,为推进ITS和LMM研究提供高价值资源。
🔬 方法详解
问题定义:现有通用领域的大型多模态模型在智能交通监控(ITS)领域的应用受限,主要原因是缺乏专门针对ITS场景的大规模多模态数据集。现有方法无法有效处理ITS领域中复杂多样的对象、事件和环境条件,导致性能瓶颈。
核心思路:论文的核心思路是构建一个大规模、高质量的ITS多模态数据集MITS,通过提供丰富的ITS场景数据,促进LMM在ITS领域的应用。通过数据驱动的方式,提升LMM对ITS特定任务的理解和推理能力。
技术框架:MITS数据集的构建包含以下几个主要阶段:1) 数据收集:从真实交通监控摄像头收集170,400张ITS图像。2) 数据标注:对图像进行细粒度的对象和事件标注,包括8个主要类别和24个子类别。3) 数据生成:通过系统的数据生成流程,生成高质量的图像描述和500万个指令跟随型视觉问答对,涵盖对象和事件识别、对象计数、对象定位、背景分析和事件推理等任务。4) 模型微调:在MITS数据集上微调主流的LMM,例如LLaVA-1.5、LLaVA-1.6、Qwen2-VL和Qwen2.5-VL。
关键创新:MITS数据集是第一个专门为智能交通监控领域设计的大规模多模态基准数据集。其创新之处在于:1) 数据规模大,覆盖了各种ITS场景和环境条件。2) 数据标注细粒度,提供了丰富的对象和事件信息。3) 数据生成多样化,涵盖了多种ITS任务。4) 提供了一套完整的模型微调和评估流程。
关键设计:数据生成流程中,使用了多种技术来保证生成数据的质量和多样性,例如:1) 使用预训练的语言模型生成图像描述。2) 使用规则和模板生成视觉问答对。3) 使用数据增强技术增加数据的多样性。在模型微调过程中,使用了交叉熵损失函数和Adam优化器,并对学习率和batch size等超参数进行了调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在MITS数据集上微调后,主流LMM在ITS应用中的性能得到了显著提升。例如,LLaVA-1.5的性能从0.494提高到0.905(+83.2%),LLaVA-1.6的性能从0.678提高到0.921(+35.8%),Qwen2-VL的性能从0.584提高到0.926(+58.6%),Qwen2.5-VL的性能从0.732提高到0.930(+27.0%)。这些结果表明MITS数据集对于提升LMM在ITS领域的性能具有重要作用。
🎯 应用场景
该研究成果可广泛应用于智能交通监控领域,例如交通流量分析、异常事件检测、交通安全预警等。通过提升LMM在ITS领域的性能,可以实现更智能、更高效的交通管理和控制,从而提高交通安全性和通行效率。未来,该数据集可以进一步扩展到其他交通相关领域,例如自动驾驶、智能停车等。
📄 摘要(原文)
General-domain large multimodal models (LMMs) have achieved significant advances in various image-text tasks. However, their performance in the Intelligent Traffic Surveillance (ITS) domain remains limited due to the absence of dedicated multimodal datasets. To address this gap, we introduce MITS (Multimodal Intelligent Traffic Surveillance), the first large-scale multimodal benchmark dataset specifically designed for ITS. MITS includes 170,400 independently collected real-world ITS images sourced from traffic surveillance cameras, annotated with eight main categories and 24 subcategories of ITS-specific objects and events under diverse environmental conditions. Additionally, through a systematic data generation pipeline, we generate high-quality image captions and 5 million instruction-following visual question-answer pairs, addressing five critical ITS tasks: object and event recognition, object counting, object localization, background analysis, and event reasoning. To demonstrate MITS's effectiveness, we fine-tune mainstream LMMs on this dataset, enabling the development of ITS-specific applications. Experimental results show that MITS significantly improves LMM performance in ITS applications, increasing LLaVA-1.5's performance from 0.494 to 0.905 (+83.2%), LLaVA-1.6's from 0.678 to 0.921 (+35.8%), Qwen2-VL's from 0.584 to 0.926 (+58.6%), and Qwen2.5-VL's from 0.732 to 0.930 (+27.0%). We release the dataset, code, and models as open-source, providing high-value resources to advance both ITS and LMM research.