METATR: A Multilingual, Evolving Benchmark for Automatic Text Recognition
作者: Mélodie Boillet, Solène Tarride, Christopher Kermorvant
分类: cs.CV
发布日期: 2026-05-26
💡 一句话要点
提出METATR:一个多语言、可演进的自动文本识别评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动文本识别 多语言 评测基准 数据集 深度学习
📋 核心要点
- 现有ATR基准多为英文印刷文本,难以准确评估模型在复杂真实文档上的性能,限制了实际应用。
- METATR通过包含多语言、多版式文档,并定义标准化评估流程,构建更具代表性和可扩展性的评测基准。
- 实验表明,现有模型在不同语言和版式上表现差异大,METATR能有效评估模型在真实场景下的性能。
📝 摘要(中文)
本文介绍METATR (v1.0),一个多语言、可演进的评测基准,旨在评估自动文本识别(ATR)模型在各种文档上的性能,从而促进有意义的模型比较和选择。该基准通过包含来自多个公共集合的文档来最大化多样性,涵盖29种语言,包括多种文字和布局的文本。除了数据集本身,METATR还定义了标准化的提示和归一化方法,并建立了一个动态评估框架,以产生可复现的结果,同时保持随时间的可扩展性。我们评估了包括开源和闭源模型在内的各种最先进的系统,并报告了在数据集和语言层面的性能、手写文档的鲁棒性和计算效率等多个维度的结果。结果表明,虽然专有模型实现了最稳定的性能,但不同文字和布局之间仍然存在显著差异。总的来说,METATR提供了一个面向从业者的多维度框架,用于评估真实条件下的多语言ATR,并跟踪该领域的进展。
🔬 方法详解
问题定义:现有自动文本识别(ATR)模型的评估主要集中在现代印刷英文文本上,缺乏对多语言、多版式、手写等复杂真实文档的有效评估。这导致模型在实际应用中性能下降,难以满足多样化的需求。因此,需要一个更具代表性和可扩展性的评测基准,以准确评估模型在真实场景下的性能,并促进模型选择。
核心思路:METATR的核心思路是通过构建一个包含多种语言、文字、版式和文档类型的多样化数据集,并结合标准化的评估流程,来模拟真实世界中的复杂场景。通过在METATR上评估ATR模型,可以更全面地了解模型在不同场景下的性能表现,从而更好地选择和优化模型。
技术框架:METATR的整体框架包括以下几个主要部分:1) 多样化数据集构建:从多个公共数据集中收集文档,涵盖29种语言,包括多种文字和布局。2) 标准化提示和归一化:定义统一的提示方式和文本归一化方法,以减少评估偏差。3) 动态评估框架:建立可扩展的评估流程,允许添加新的数据集和评估指标。4) 多维度性能评估:从数据集层面、语言层面、手写文档鲁棒性和计算效率等方面评估ATR模型。
关键创新:METATR的关键创新在于其数据集的多样性和评估框架的动态性。与现有基准相比,METATR包含了更广泛的语言、文字和版式,更贴近真实应用场景。同时,METATR的评估框架可以随着技术的发展而不断演进,保持其有效性和相关性。
关键设计:METATR的关键设计包括:1) 数据集选择:优先选择包含多种语言和版式的公共数据集,并进行清洗和标注。2) 提示设计:采用简洁明了的提示语,以减少提示对模型性能的影响。3) 归一化方法:使用标准化的文本归一化方法,例如去除标点符号和转换为小写,以提高评估的准确性。4) 评估指标:采用常用的文本识别评估指标,例如字符错误率(CER)和单词错误率(WER),并根据具体场景进行调整。
🖼️ 关键图片
📊 实验亮点
METATR的实验结果表明,虽然专有模型在整体性能上表现更稳定,但在不同文字和布局上的性能差异仍然显著。例如,某些模型在拉丁文字上的表现优异,但在中文或阿拉伯文字上的表现较差。此外,手写文档的识别仍然是一个挑战。这些结果突出了METATR在评估ATR模型真实性能方面的价值,并为未来的研究方向提供了指导。
🎯 应用场景
METATR可应用于评估和选择适用于各种场景的ATR模型,例如:文档数字化、历史文献识别、多语言信息处理等。它能帮助研究人员和开发者更好地了解模型在真实场景下的性能,从而选择最合适的模型,并推动ATR技术在多语言和复杂文档处理领域的应用。该基准的动态性和可扩展性使其能够持续跟踪该领域的进展,并为未来的研究提供参考。
📄 摘要(原文)
Benchmarks that reflect the diversity and complexity of real-world documents are essential for accurately evaluating Automatic Text Recognition (ATR) systems, especially Vision-Large Language Models (vLLMs). Although recent models demonstrate impressive performance, they are often evaluated on datasets containing modern, printed texts mostly written in English, which limits their relevance to many practical applications. Therefore, selecting a model for a specific use case requires evaluating it on data that matches the target documents. This highlights the importance of representative benchmarks for real-world applications. In this paper, we introduce METATR (v1.0), a multilingual, evolving benchmark designed to evaluate ATR models across a wide range of documents, facilitating meaningful model comparison and selection. The benchmark was designed to maximize diversity by including documents from various public collections. These documents cover 29 languages and include texts with multiple scripts and layouts. Beyond the dataset itself, METATR defines a standardized prompting and normalization methodology and establishes a dynamic evaluation framework. This approach is intended to produce reproducible results while remaining extensible over time. We evaluated a wide range of state-of-the-art systems, including open-source models and closed-source models. Results are reported across various dimensions, including performance at the dataset and language levels, robustness to handwritten documents, and computational efficiency. Our findings show that, although proprietary models achieve the most consistent performance, substantial variability persists across scripts and layouts. Overall, METATR provides a multidimensional, practitioner-oriented framework for assessing multilingual ATR in real-world conditions and tracking progress as the field evolves.