OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning
作者: Ling Fu, Zhebin Kuang, Jiajun Song, Mingxin Huang, Biao Yang, Yuzhe Li, Linghao Zhu, Qidi Luo, Xinyu Wang, Hao Lu, Zhang Li, Guozhi Tang, Bin Shan, Chunhui Lin, Qi Liu, Binghong Wu, Hao Feng, Hao Liu, Can Huang, Jingqun Tang, Wei Chen, Lianwen Jin, Yuliang Liu, Xiang Bai
分类: cs.CV, cs.AI
发布日期: 2024-12-31 (更新: 2025-06-05)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
OCRBench v2:改进的多模态模型视觉文本定位与推理评估基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态模型 OCR 文本定位 视觉推理 评估基准
📋 核心要点
- 现有OCR评估基准侧重文本识别,对文本定位、手写内容提取和逻辑推理等能力评估不足。
- OCRBench v2通过扩展任务类型、场景覆盖和评估指标,构建更全面的LMMs评估基准。
- 实验表明,现有LMMs在OCRBench v2上表现不佳,存在多种局限性,有待进一步提升。
📝 摘要(中文)
本文提出了OCRBench v2,一个大规模双语文本中心基准,旨在更全面地评估大型多模态模型(LMMs)的光学字符识别(OCR)能力。该基准拥有当前最全面的任务集(任务数量是先前多场景基准OCRBench的4倍),覆盖最广泛的场景(31个不同的场景),并采用全面的评估指标,包含10,000个人工验证的问答对和高比例的困难样本。此外,构建了一个包含1,500张手动标注图像的私有测试集。在公共和私有测试集中观察到一致的评估趋势,验证了OCRBench v2的可靠性。通过仔细评估最先进的LMMs,发现大多数LMMs的得分低于50(总分100),并且存在五种类型的局限性,包括不常见的文本识别、细粒度感知、布局感知、复杂元素解析和逻辑推理。
🔬 方法详解
问题定义:现有的大型多模态模型(LMMs)在文本识别方面表现出色,但对于更具挑战性的任务,如文本定位、手写内容提取和逻辑推理,其能力仍有待探索。现有的OCR评估基准在这些方面存在不足,无法全面评估LMMs的OCR能力。
核心思路:OCRBench v2的核心思路是通过构建一个大规模、多样化的基准数据集,包含更全面的任务类型、更广泛的场景覆盖和更严格的评估指标,从而更准确地评估LMMs在视觉文本理解方面的能力。该基准旨在揭示LMMs在处理复杂OCR任务时的局限性,并推动相关技术的发展。
技术框架:OCRBench v2包含以下主要组成部分:1) 大规模数据集:包含10,000个人工验证的问答对,涵盖31个不同的场景,包含高比例的困难样本。2) 多样化的任务集:任务数量是先前OCRBench的4倍,覆盖文本定位、手写内容提取、逻辑推理等多种任务。3) 全面的评估指标:采用多种评估指标,从不同角度评估LMMs的OCR能力。4) 私有测试集:包含1,500张手动标注图像,用于验证评估结果的可靠性。
关键创新:OCRBench v2的关键创新在于其任务的全面性和场景的多样性。与现有的OCR评估基准相比,OCRBench v2包含更多种类的OCR任务,例如文本定位、手写内容提取和逻辑推理,并且覆盖了更广泛的场景,例如文档、场景文本和手写文本。这使得OCRBench v2能够更全面地评估LMMs在视觉文本理解方面的能力。
关键设计:OCRBench v2的关键设计包括:1) 困难样本的比例:数据集中包含高比例的困难样本,例如模糊文本、扭曲文本和遮挡文本,以挑战LMMs的鲁棒性。2) 人工验证的问答对:所有问答对都经过人工验证,以确保评估结果的准确性。3) 私有测试集:私有测试集包含手动标注的图像,用于验证评估结果的可靠性,避免模型在公共数据集上过拟合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有最先进的LMMs在OCRBench v2上的得分普遍低于50(总分100),表明它们在处理复杂OCR任务时存在显著的局限性。具体来说,LMMs在不常见的文本识别、细粒度感知、布局感知、复杂元素解析和逻辑推理等方面表现不佳。这些结果突出了OCRBench v2作为LMMs OCR能力评估基准的价值。
🎯 应用场景
OCRBench v2可用于评估和比较不同LMMs的OCR能力,推动LMMs在文档理解、场景文本识别、手写内容分析等领域的应用。该基准有助于研究人员发现LMMs在OCR任务中的局限性,并开发更强大的OCR模型,提升自动化文档处理、智能图像搜索和人机交互等应用的性能。
📄 摘要(原文)
Scoring the Optical Character Recognition (OCR) capabilities of Large Multimodal Models (LMMs) has witnessed growing interest. Existing benchmarks have highlighted the impressive performance of LMMs in text recognition; however, their abilities in certain challenging tasks, such as text localization, handwritten content extraction, and logical reasoning, remain underexplored. To bridge this gap, we introduce OCRBench v2, a large-scale bilingual text-centric benchmark with currently the most comprehensive set of tasks (4x more tasks than the previous multi-scene benchmark OCRBench), the widest coverage of scenarios (31 diverse scenarios), and thorough evaluation metrics, with 10,000 human-verified question-answering pairs and a high proportion of difficult samples. Moreover, we construct a private test set with 1,500 manually annotated images. The consistent evaluation trends observed across both public and private test sets validate the OCRBench v2's reliability. After carefully benchmarking state-of-the-art LMMs, we find that most LMMs score below 50 (100 in total) and suffer from five-type limitations, including less frequently encountered text recognition, fine-grained perception, layout perception, complex element parsing, and logical reasoning. The project website is at: https://99franklin.github.io/ocrbench_v2/