MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios
作者: Zhang Li, Zhibo Lin, Qiang Liu, Ziyang Zhang, Shuo Zhang, Zidun Guo, Jiajun Song, Jiarui Zhang, Xiang Bai, Yuliang Liu
分类: cs.CV, cs.AI
发布日期: 2026-03-30
🔗 代码/项目: GITHUB
💡 一句话要点
MDPBench:首个多语言文档解析真实场景基准评测,揭示开源模型性能瓶颈。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言文档解析 基准评测 低资源语言 真实场景 开源模型 性能评估 文档图像处理
📋 核心要点
- 现有文档解析方法主要集中于少数语言的数字化文档,缺乏对多语言和真实场景文档的有效评估。
- MDPBench构建了一个包含17种语言、多种脚本和拍摄条件的文档图像数据集,并提供高质量标注。
- 实验表明,开源模型在非拉丁脚本和拍摄文档上性能显著下降,凸显了现有方法的局限性。
📝 摘要(中文)
本文提出了多语言文档解析基准评测MDPBench,这是首个针对多语言数字和拍摄文档解析的基准。尽管文档解析取得了显著进展,但几乎都集中在少数主流语言的干净、数字化的格式良好页面上。目前还没有系统的基准来评估模型在不同脚本和低资源语言的数字和拍摄文档上的性能。MDPBench包含3400张文档图像,涵盖17种语言、多种脚本和不同的拍摄条件,并通过专家模型标注、人工校正和人工验证的严格流程生成高质量的标注。为了确保公平比较和防止数据泄露,我们维护了独立的公共和私有评估集。我们对开源和闭源模型进行了全面评估,发现了一个惊人的结果:虽然闭源模型(特别是Gemini3-Pro)表现出相对的鲁棒性,但开源替代方案的性能急剧下降,尤其是在非拉丁脚本和真实拍摄的文档上,拍摄文档的平均下降幅度为17.8%,非拉丁脚本的平均下降幅度为14.0%。这些结果揭示了跨语言和条件下的显著性能失衡,并为构建更具包容性的、可部署的解析系统指明了具体方向。
🔬 方法详解
问题定义:论文旨在解决多语言文档解析领域缺乏系统性评测基准的问题。现有方法主要集中在少数主流语言的数字化、高质量文档上,忽略了低资源语言、复杂脚本以及真实拍摄场景下的文档解析性能。这导致现有模型在实际应用中表现不佳,尤其是在处理非拉丁语系和拍摄文档时,性能会显著下降。
核心思路:论文的核心思路是构建一个包含多种语言、脚本和拍摄条件的文档图像数据集,并提供高质量的标注,从而为多语言文档解析提供一个公平、全面的评测基准。通过在该基准上评估现有模型,可以发现其在不同语言和场景下的性能瓶颈,并为未来的研究提供方向。
技术框架:MDPBench的构建流程主要包括以下几个阶段:1) 数据收集:收集涵盖17种语言、多种脚本和不同拍摄条件的文档图像。2) 标注生成:采用专家模型进行初始标注,然后进行人工校正和人工验证,以确保标注的质量。3) 数据划分:将数据集划分为公共和私有评估集,以防止数据泄露,并确保评估的公平性。4) 模型评估:在MDPBench上评估现有的开源和闭源模型,并分析其在不同语言和场景下的性能表现。
关键创新:MDPBench的主要创新在于它是首个针对多语言文档解析的真实场景基准评测。它不仅包含了多种语言和脚本,还考虑了真实拍摄场景下的文档图像,从而更真实地反映了实际应用中的挑战。此外,MDPBench还采用了严格的标注流程和数据划分策略,以确保评估的公平性和可靠性。
关键设计:MDPBench的关键设计包括:1) 语言选择:选择了17种具有代表性的语言,涵盖了拉丁语系、非拉丁语系以及低资源语言。2) 拍摄条件:包含了不同光照条件、拍摄角度和图像质量的文档图像,以模拟真实场景。3) 标注流程:采用了专家模型标注、人工校正和人工验证相结合的标注流程,以确保标注的准确性和一致性。4) 评估指标:采用了常用的文档解析评估指标,如字符准确率和单词准确率,以全面评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,闭源模型(如Gemini3-Pro)在多语言文档解析方面表现出较强的鲁棒性,而开源模型在非拉丁脚本和拍摄文档上的性能显著下降,平均下降幅度分别为14.0%和17.8%。这一发现揭示了现有开源模型在处理复杂场景下的局限性,为未来的研究提供了明确的方向。
🎯 应用场景
该研究成果可广泛应用于多语言文档处理、信息提取、自动化办公等领域。通过使用MDPBench评估和改进文档解析模型,可以提高模型在各种语言和场景下的性能,从而更好地服务于全球用户。此外,该基准还可以促进低资源语言文档处理技术的发展,缩小数字鸿沟,实现更具包容性的信息访问。
📄 摘要(原文)
We introduce Multilingual Document Parsing Benchmark, the first benchmark for multilingual digital and photographed document parsing. Document parsing has made remarkable strides, yet almost exclusively on clean, digital, well-formatted pages in a handful of dominant languages. No systematic benchmark exists to evaluate how models perform on digital and photographed documents across diverse scripts and low-resource languages. MDPBench comprises 3,400 document images spanning 17 languages, diverse scripts, and varied photographic conditions, with high-quality annotations produced through a rigorous pipeline of expert model labeling, manual correction, and human verification. To ensure fair comparison and prevent data leakage, we maintain separate public and private evaluation splits. Our comprehensive evaluation of both open-source and closed-source models uncovers a striking finding: while closed-source models (notably Gemini3-Pro) prove relatively robust, open-source alternatives suffer dramatic performance collapse, particularly on non-Latin scripts and real-world photographed documents, with an average drop of 17.8% on photographed documents and 14.0% on non-Latin scripts. These results reveal significant performance imbalances across languages and conditions, and point to concrete directions for building more inclusive, deployment-ready parsing systems. Source available at https://github.com/Yuliang-Liu/MultimodalOCR.