Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

📄 arXiv: 2509.18174v1 📥 PDF

作者: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan

分类: cs.CV, cs.CL

发布日期: 2025-09-17


💡 一句话要点

Baseer:面向阿拉伯语文档OCR的视觉-语言模型,显著提升识别精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语OCR 视觉-语言模型 多模态学习 文档理解 领域自适应

📋 核心要点

  1. 阿拉伯语OCR因其文字特性(如草书、变音符号)而面临挑战,现有MLLM性能有限。
  2. Baseer通过decoder-only微调策略,利用大规模数据集训练MLLM,专门用于阿拉伯语文档OCR。
  3. 实验结果表明,Baseer在阿拉伯语文档OCR任务上显著优于现有方案,WER达到0.25,刷新了SOTA。

📝 摘要(中文)

由于阿拉伯语的草书、多样的字体、变音符号和从右到左的阅读方向,阿拉伯语文档OCR仍然是一项具有挑战性的任务。虽然现代多模态大型语言模型(MLLM)已经推动了高资源语言的文档理解,但它们在阿拉伯语上的性能仍然有限。本文介绍了Baseer,一个专门为阿拉伯语文档OCR微调的视觉-语言模型。Baseer利用大规模数据集(结合了合成和真实文档),采用decoder-only微调策略训练,以适应预训练的MLLM,同时保留一般的视觉特征。我们还提出了Misraj-DocOCR,这是一个高质量、专家验证的基准,专为阿拉伯语OCR系统的严格评估而设计。实验表明,Baseer显著优于现有的开源和商业解决方案,实现了0.25的WER,并在阿拉伯语文档OCR领域建立了新的state-of-the-art。我们的结果突出了通用MLLM的领域特定适应的优势,并为像阿拉伯语这样形态丰富的语言建立了一个高精度OCR的强大基线。

🔬 方法详解

问题定义:阿拉伯语文档OCR面临诸多挑战,包括阿拉伯语的草书特性、多样的字体、变音符号以及从右向左的阅读顺序。现有的多模态大型语言模型(MLLM)虽然在通用文档理解任务上表现出色,但在处理阿拉伯语文档时,性能仍然受到限制,无法满足实际应用的需求。

核心思路:论文的核心思路是针对阿拉伯语文档OCR任务,对预训练的MLLM进行领域特定的微调。通过这种方式,可以使模型更好地适应阿拉伯语的语言特性和文档布局,从而提高OCR的准确率。同时,保持模型的一般视觉特征,避免过拟合到特定数据集。

技术框架:Baseer的技术框架主要包括以下几个部分:1) 数据集构建:构建包含合成数据和真实数据的混合数据集,用于模型的训练。2) 模型选择:选择一个预训练的MLLM作为基础模型。3) 微调策略:采用decoder-only的微调策略,对模型进行训练。4) 评估基准:提出Misraj-DocOCR,一个高质量的阿拉伯语文档OCR评估基准。

关键创新:论文的关键创新在于针对阿拉伯语文档OCR任务,对预训练的MLLM进行领域特定的微调,并提出了一个高质量的阿拉伯语文档OCR评估基准Misraj-DocOCR。这种领域特定的微调方法能够显著提高模型在阿拉伯语文档OCR任务上的性能,优于直接使用通用MLLM或现有的开源/商业OCR方案。

关键设计:Baseer的关键设计包括:1) 大规模数据集:使用包含合成数据和真实数据的混合数据集,以提高模型的泛化能力。2) Decoder-only微调:采用decoder-only的微调策略,以适应文档OCR任务的特点。3) Misraj-DocOCR基准:设计高质量的评估基准,以准确评估模型的性能。具体参数设置和网络结构细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

Baseer在Misraj-DocOCR基准测试中取得了显著的成果,WER(Word Error Rate)达到了0.25,超越了现有的开源和商业解决方案,建立了新的state-of-the-art。这表明Baseer在阿拉伯语文档OCR任务上具有卓越的性能,验证了领域特定微调策略的有效性。

🎯 应用场景

Baseer在多个领域具有广泛的应用前景,包括数字化图书馆、历史文献保护、自动化文档处理、金融票据识别等。它可以帮助用户更高效地处理阿拉伯语文档,提高工作效率,并为文化遗产的数字化保护做出贡献。未来,该技术有望应用于更多形态丰富的语言的文档处理。

📄 摘要(原文)

Arabic document OCR remains a challenging task due to the language's cursive script, diverse fonts, diacritics, and right-to-left orientation. While modern Multimodal Large Language Models (MLLMs) have advanced document understanding for high-resource languages, their performance on Arabic remains limited. In this work, we introduce Baseer, a vision-language model fine-tuned specifically for Arabic document OCR. Leveraging a large-scale dataset combining synthetic and real-world documents, Baseer is trained using a decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving general visual features. We also present Misraj-DocOCR, a high-quality, expert-verified benchmark designed for rigorous evaluation of Arabic OCR systems. Our experiments show that Baseer significantly outperforms existing open-source and commercial solutions, achieving a WER of 0.25 and establishing a new state-of-the-art in the domain of Arabic document OCR. Our results highlight the benefits of domain-specific adaptation of general-purpose MLLMs and establish a strong baseline for high-accuracy OCR on morphologically rich languages like Arabic.