MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios

📄 arXiv: 2505.21333v2 📥 PDF

作者: Yang Shi, Huanqian Wang, Wulin Xie, Huanyao Zhang, Lijie Zhao, Yi-Fan Zhang, Xinfeng Li, Chaoyou Fu, Zhuoer Wen, Wenting Liu, Zhuoran Zhang, Xinlong Chen, Bohan Zeng, Sihan Yang, Yushuo Guan, Zhang Zhang, Liang Wang, Haoxuan Li, Zhouchen Lin, Yuanxing Zhang, Pengfei Wan, Haotian Wang, Wenjing Yang

分类: cs.CV

发布日期: 2025-05-27 (更新: 2025-09-25)

备注: Accepted by NeurIPS 2025


💡 一句话要点

提出MME-VideoOCR以解决视频场景下OCR能力不足的问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频OCR 多模态大型语言模型 任务基准 文本理解 时空推理 动态视频分析 视觉输入

📋 核心要点

  1. 现有的多模态大型语言模型在视频OCR中表现不佳,主要由于动态视频中的运动模糊和时间变化等因素。
  2. 论文提出MME-VideoOCR基准,涵盖多种视频OCR任务,旨在提升模型在视频理解和文本推理方面的能力。
  3. 实验结果显示,现有模型在处理单帧文本时表现良好,但在需要整体视频理解的任务中能力有限,最佳模型准确率仅为73.7%。

📝 摘要(中文)

多模态大型语言模型(MLLMs)在静态图像的光学字符识别(OCR)方面取得了显著的准确性。然而,由于运动模糊、时间变化和视频内容固有的视觉效果,其在视频OCR中的有效性显著降低。为提供更清晰的培训指导,本文引入了MME-VideoOCR基准,涵盖了广泛的视频OCR应用场景。该基准包括10个任务类别和25个具体任务,涉及44种不同场景,任务不仅限于文本识别,还包括对视频中文本内容的深入理解和推理。基准包含1464个不同分辨率、纵横比和时长的视频,以及2000对精心策划的手动标注问答对。对18个最先进的MLLMs进行评估,发现即使是表现最佳的模型(Gemini-2.5 Pro)准确率也仅为73.7%。

🔬 方法详解

问题定义:本文旨在解决多模态大型语言模型在视频场景下OCR能力不足的问题,现有方法在动态视频中面临运动模糊和时间变化的挑战。

核心思路:提出MME-VideoOCR基准,设计涵盖多种任务和场景,旨在提升模型对视频中文本的理解和推理能力。

技术框架:MME-VideoOCR基准包括10个任务类别和25个具体任务,涵盖44种不同场景,提供1464个视频和2000对问答对,支持多样化的评估。

关键创新:引入了全面的视频OCR基准,强调了对文本理解和推理的需求,特别是在需要跨帧信息整合和时空推理的任务中。

关键设计:基准中的视频具有不同的分辨率和时长,任务设计注重高分辨率视觉输入和足够的时间覆盖,以提高动态视频场景下的OCR可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的18个最先进的多模态大型语言模型在MME-VideoOCR基准上的表现有限,最佳模型Gemini-2.5 Pro的准确率仅为73.7%。尤其在需要整体视频理解的任务中,模型的能力显著不足,突显了该基准的必要性和重要性。

🎯 应用场景

该研究的潜在应用领域包括视频监控、自动字幕生成、视频内容分析等,能够为多模态理解和人机交互提供更强大的技术支持。未来,随着视频内容的日益丰富,MME-VideoOCR将推动相关领域的技术进步和应用创新。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have achieved considerable accuracy in Optical Character Recognition (OCR) from static images. However, their efficacy in video OCR is significantly diminished due to factors such as motion blur, temporal variations, and visual effects inherent in video content. To provide clearer guidance for training practical MLLMs, we introduce the MME-VideoOCR benchmark, which encompasses a comprehensive range of video OCR application scenarios. MME-VideoOCR features 10 task categories comprising 25 individual tasks and spans 44 diverse scenarios. These tasks extend beyond text recognition to incorporate deeper comprehension and reasoning of textual content within videos. The benchmark consists of 1,464 videos with varying resolutions, aspect ratios, and durations, along with 2,000 meticulously curated, manually annotated question-answer pairs. We evaluate 18 state-of-the-art MLLMs on MME-VideoOCR, revealing that even the best-performing model (Gemini-2.5 Pro) achieves an accuracy of only 73.7%. Fine-grained analysis indicates that while existing MLLMs demonstrate strong performance on tasks where relevant texts are contained within a single or few frames, they exhibit limited capability in effectively handling tasks that demand holistic video comprehension. These limitations are especially evident in scenarios that require spatio-temporal reasoning, cross-frame information integration, or resistance to language prior bias. Our findings also highlight the importance of high-resolution visual input and sufficient temporal coverage for reliable OCR in dynamic video scenarios.