Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
作者: Chaoyou Fu, Yuhan Dai, Yongdong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Caifeng Shan, Ran He, Xing Sun
分类: cs.CV, cs.CL
发布日期: 2024-05-31 (更新: 2025-05-30)
备注: Project Page: https://video-mme.github.io
💡 一句话要点
Video-MME:首个面向视频分析的多模态大语言模型综合评估基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视频分析 评估基准 长视频理解 多模态融合
📋 核心要点
- 当前多模态大语言模型在视频理解方面缺乏系统性评估,阻碍了其在时序视觉数据处理能力上的发展。
- Video-MME基准通过构建多样化、长时序、多模态的视频数据集,并进行高质量标注,为MLLM的视频分析能力提供全面评估。
- 实验结果表明,现有MLLM在处理长序列和多模态数据方面仍有提升空间,Gemini 1.5 Pro在商业模型中表现最佳。
📝 摘要(中文)
为了探索通用人工智能,多模态大语言模型(MLLMs)已成为近期发展中的焦点。然而,目前的研究主要集中在静态图像理解能力上,而MLLMs在处理序列视觉数据方面的潜力尚未得到充分挖掘。本文提出了Video-MME,这是首个全面的、高质量的MLLMs视频分析评估基准。Video-MME区别于现有基准的四个关键特征是:1) 视频类型的多样性,涵盖6个主要视觉领域和30个子领域,以确保广泛的场景泛化能力;2) 时间维度的持续性,包含短、中、长期视频,范围从11秒到1小时,以实现鲁棒的上下文动态建模;3) 数据模态的广泛性,整合了视频帧之外的多模态输入,包括字幕和音频,以揭示MLLMs的全面能力;4) 注释的质量,利用专家标注员的严格手动标注,通过反复观看所有视频内容,以促进精确和可靠的模型评估。总共手动选择并标注了900个视频,总时长254小时,产生了2,700个问答对。通过Video-MME,我们广泛评估了各种最先进的MLLMs,包括GPT-4系列和Gemini 1.5 Pro,以及开源图像模型(如InternVL-Chat-V1.5)和视频模型(如LLaVA-NeXT-Video)。实验表明,Gemini 1.5 Pro是性能最佳的商业模型,显著优于开源模型。我们的数据集和研究结果强调了进一步改进模型处理更长序列和多模态数据的必要性。
🔬 方法详解
问题定义:现有的大部分多模态大语言模型评估集中在静态图像上,缺乏对视频理解能力的全面评估,尤其是在长时序、多模态信息融合方面。现有的视频理解数据集在多样性、时长和模态覆盖上存在局限性,难以充分评估MLLM的性能。
核心思路:Video-MME的核心思路是构建一个全面、高质量的视频分析评估基准,覆盖多种视频类型、不同时间跨度和多种数据模态,并采用专家标注,以确保评估的准确性和可靠性。通过该基准,可以系统地评估MLLM在视频理解方面的能力,并为未来的研究提供指导。
技术框架:Video-MME数据集构建流程主要包括以下几个阶段:1) 视频选择:从6个主要视觉领域(如日常生活、教育、娱乐等)和30个子领域中选择具有代表性的视频;2) 视频标注:由专家标注员反复观看视频内容,并生成高质量的问答对;3) 数据集划分:将数据集划分为训练集、验证集和测试集,用于模型训练和评估。数据集包含900个视频,总时长254小时,以及2700个问答对。
关键创新:Video-MME的关键创新在于其全面性和高质量。它不仅覆盖了多种视频类型和时间跨度,还整合了视频帧之外的多模态输入,如字幕和音频。此外,数据集的标注由专家完成,保证了标注的准确性和可靠性。
关键设计:Video-MME在视频选择上,考虑了视频内容的多样性和代表性,确保数据集能够覆盖各种实际应用场景。在视频标注上,采用了人工标注的方式,并由专家进行审核,以保证标注的质量。在数据集划分上,采用了随机划分的方式,以避免数据泄露。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Gemini 1.5 Pro在Video-MME基准上表现最佳,显著优于开源模型,但所有模型在处理长序列和多模态数据方面仍有提升空间。例如,Gemini 1.5 Pro在整体性能上优于LLaVA-NeXT-Video约10%,但在长视频理解方面仍存在挑战。这些结果表明,未来的研究需要更加关注如何提升MLLM在长时序和多模态数据上的理解能力。
🎯 应用场景
Video-MME基准的潜在应用领域包括视频内容理解、智能监控、自动驾驶、教育视频分析等。通过该基准,可以评估和提升MLLM在这些领域的应用性能,例如,在智能监控中,可以利用MLLM分析监控视频,自动识别异常行为;在教育视频分析中,可以利用MLLM理解教学内容,并为学生提供个性化学习建议。该基准的发布将促进多模态视频理解技术的发展,并推动其在各个领域的广泛应用。
📄 摘要(原文)
In the quest for artificial general intelligence, Multi-modal Large Language Models (MLLMs) have emerged as a focal point in recent advancements. However, the predominant focus remains on developing their capabilities in static image understanding. The potential of MLLMs in processing sequential visual data is still insufficiently explored, highlighting the absence of a comprehensive, high-quality assessment of their performance. In this paper, we introduce Video-MME, the first-ever full-spectrum, Multi-Modal Evaluation benchmark of MLLMs in Video analysis. Our work distinguishes from existing benchmarks through four key features: 1) Diversity in video types, spanning 6 primary visual domains with 30 subfields to ensure broad scenario generalizability; 2) Duration in temporal dimension, encompassing both short-, medium-, and long-term videos, ranging from 11 seconds to 1 hour, for robust contextual dynamics; 3) Breadth in data modalities, integrating multi-modal inputs besides video frames, including subtitles and audios, to unveil the all-round capabilities of MLLMs; 4) Quality in annotations, utilizing rigorous manual labeling by expert annotators to facilitate precise and reliable model assessment. 900 videos with a total of 254 hours are manually selected and annotated by repeatedly viewing all the video content, resulting in 2,700 question-answer pairs. With Video-MME, we extensively evaluate various state-of-the-art MLLMs, including GPT-4 series and Gemini 1.5 Pro, as well as open-source image models like InternVL-Chat-V1.5 and video models like LLaVA-NeXT-Video. Our experiments reveal that Gemini 1.5 Pro is the best-performing commercial model, significantly outperforming the open-source models. Our dataset along with these findings underscores the need for further improvements in handling longer sequences and multi-modal data. Project Page: https://video-mme.github.io