Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

作者: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan

分类: cs.CV, cs.CL

发布日期: 2025-09-17

💡 一句话要点

Baseer：面向阿拉伯语文档OCR的视觉-语言模型，显著提升识别精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语OCR 视觉-语言模型 多模态学习 文档理解 领域自适应

📋 核心要点

阿拉伯语OCR因其文字特性（如草书、变音符号）而面临挑战，现有MLLM性能有限。
Baseer通过decoder-only微调策略，利用大规模数据集训练MLLM，专门用于阿拉伯语文档OCR。
实验结果表明，Baseer在阿拉伯语文档OCR任务上显著优于现有方案，WER达到0.25，刷新了SOTA。

📝 摘要（中文）

由于阿拉伯语的草书、多样的字体、变音符号和从右到左的阅读方向，阿拉伯语文档OCR仍然是一项具有挑战性的任务。虽然现代多模态大型语言模型（MLLM）已经推动了高资源语言的文档理解，但它们在阿拉伯语上的性能仍然有限。本文介绍了Baseer，一个专门为阿拉伯语文档OCR微调的视觉-语言模型。Baseer利用大规模数据集（结合了合成和真实文档），采用decoder-only微调策略训练，以适应预训练的MLLM，同时保留一般的视觉特征。我们还提出了Misraj-DocOCR，这是一个高质量、专家验证的基准，专为阿拉伯语OCR系统的严格评估而设计。实验表明，Baseer显著优于现有的开源和商业解决方案，实现了0.25的WER，并在阿拉伯语文档OCR领域建立了新的state-of-the-art。我们的结果突出了通用MLLM的领域特定适应的优势，并为像阿拉伯语这样形态丰富的语言建立了一个高精度OCR的强大基线。

🔬 方法详解

问题定义：阿拉伯语文档OCR面临诸多挑战，包括阿拉伯语的草书特性、多样的字体、变音符号以及从右向左的阅读顺序。现有的多模态大型语言模型（MLLM）虽然在通用文档理解任务上表现出色，但在处理阿拉伯语文档时，性能仍然受到限制，无法满足实际应用的需求。

核心思路：论文的核心思路是针对阿拉伯语文档OCR任务，对预训练的MLLM进行领域特定的微调。通过这种方式，可以使模型更好地适应阿拉伯语的语言特性和文档布局，从而提高OCR的准确率。同时，保持模型的一般视觉特征，避免过拟合到特定数据集。

技术框架：Baseer的技术框架主要包括以下几个部分：1) 数据集构建：构建包含合成数据和真实数据的混合数据集，用于模型的训练。2) 模型选择：选择一个预训练的MLLM作为基础模型。3) 微调策略：采用decoder-only的微调策略，对模型进行训练。4) 评估基准：提出Misraj-DocOCR，一个高质量的阿拉伯语文档OCR评估基准。

关键创新：论文的关键创新在于针对阿拉伯语文档OCR任务，对预训练的MLLM进行领域特定的微调，并提出了一个高质量的阿拉伯语文档OCR评估基准Misraj-DocOCR。这种领域特定的微调方法能够显著提高模型在阿拉伯语文档OCR任务上的性能，优于直接使用通用MLLM或现有的开源/商业OCR方案。

关键设计：Baseer的关键设计包括：1) 大规模数据集：使用包含合成数据和真实数据的混合数据集，以提高模型的泛化能力。2) Decoder-only微调：采用decoder-only的微调策略，以适应文档OCR任务的特点。3) Misraj-DocOCR基准：设计高质量的评估基准，以准确评估模型的性能。具体参数设置和网络结构细节在论文中未明确给出，属于未知信息。

🖼️ 关键图片

📊 实验亮点

Baseer在Misraj-DocOCR基准测试中取得了显著的成果，WER（Word Error Rate）达到了0.25，超越了现有的开源和商业解决方案，建立了新的state-of-the-art。这表明Baseer在阿拉伯语文档OCR任务上具有卓越的性能，验证了领域特定微调策略的有效性。

🎯 应用场景

Baseer在多个领域具有广泛的应用前景，包括数字化图书馆、历史文献保护、自动化文档处理、金融票据识别等。它可以帮助用户更高效地处理阿拉伯语文档，提高工作效率，并为文化遗产的数字化保护做出贡献。未来，该技术有望应用于更多形态丰富的语言的文档处理。

📄 摘要（原文）

Arabic document OCR remains a challenging task due to the language's cursive script, diverse fonts, diacritics, and right-to-left orientation. While modern Multimodal Large Language Models (MLLMs) have advanced document understanding for high-resource languages, their performance on Arabic remains limited. In this work, we introduce Baseer, a vision-language model fine-tuned specifically for Arabic document OCR. Leveraging a large-scale dataset combining synthetic and real-world documents, Baseer is trained using a decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving general visual features. We also present Misraj-DocOCR, a high-quality, expert-verified benchmark designed for rigorous evaluation of Arabic OCR systems. Our experiments show that Baseer significantly outperforms existing open-source and commercial solutions, achieving a WER of 0.25 and establishing a new state-of-the-art in the domain of Arabic document OCR. Our results highlight the benefits of domain-specific adaptation of general-purpose MLLMs and establish a strong baseline for high-accuracy OCR on morphologically rich languages like Arabic.

Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理