Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems

📄 arXiv: 2602.16430v1 📥 PDF

作者: Ali Faraz, Raja Kolla, Ashish Kulkarni, Shubham Agarwal

分类: cs.CV, cs.AI

发布日期: 2026-02-18


💡 一句话要点

针对印度多语言场景,设计生产级OCR系统Chitrapathak和Parichay。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: OCR 多语言 印度语系 深度学习 视觉-语言模型 微调 文档识别

📋 核心要点

  1. 印度OCR系统面临语言多样性、文档异构性和部署限制等挑战,现有方法难以兼顾精度和效率。
  2. 论文探索了两种训练策略:端到端多模态训练和微调现有OCR模型,后者在精度-延迟权衡上表现更优。
  3. 实验表明,Chitrapathak-2在泰卢固语上达到SOTA,并在其他语言上表现优异,同时Parichay在政府文档提取上达到89.8%的精确匹配。

📝 摘要(中文)

为印度设计光学字符识别(OCR)系统需要在语言多样性、文档异构性和部署约束之间取得平衡。本文研究了两种训练策略,通过Chitrapathak系列构建具有视觉-语言模型的多语言OCR系统。首先,采用一种流行的多模态方法,将通用视觉编码器与强大的多语言语言模型配对,并对系统进行端到端OCR训练。其次,探索微调现有的OCR模型,即使该模型没有针对目标语言进行训练。通过对多语言印度语OCR基准和面向部署的指标进行广泛评估,发现第二种策略始终能实现更好的精度-延迟权衡。Chitrapathak-2比其前身实现了3-6倍的加速,并在泰卢固语中达到最先进水平(6.69 char ANLS),在其余语言中达到第二好水平。此外,我们还提出了Parichay,一个独立的OCR模型系列,专门为提取9种印度政府文档中的结构化关键字段而设计,实现了89.8%的精确匹配分数,且推理速度更快。总之,这些系统实现了最先进的性能,并为在印度环境中构建生产规模的OCR管道提供了实践指导。

🔬 方法详解

问题定义:论文旨在解决印度复杂场景下的OCR问题,包括多语言环境、文档格式多样以及对部署效率的要求。现有方法通常难以在精度和效率之间取得平衡,尤其是在处理印度语系时,性能会显著下降。此外,针对特定领域(如政府文档)的OCR需求,通用模型往往无法提供足够的准确率。

核心思路:论文的核心思路是探索两种不同的训练策略,以构建适用于印度语系的高效OCR系统。一种是端到端的多模态训练,另一种是微调已有的OCR模型。通过对比实验,发现微调策略在精度和效率之间取得了更好的平衡。此外,针对特定领域的OCR需求,论文提出了专门设计的模型Parichay。

技术框架:Chitrapathak系列采用两种训练框架。第一种是端到端的多模态方法,将视觉编码器与多语言语言模型结合,进行联合训练。第二种方法是微调已有的OCR模型,使其适应目标语言。Parichay则是一个独立的OCR模型系列,专门为提取印度政府文档中的结构化关键字段而设计。整体流程包括图像预处理、文本检测、文本识别和后处理等步骤。

关键创新:论文的关键创新在于对两种训练策略的对比研究,并发现微调策略在印度语系OCR任务中更具优势。此外,针对特定领域的需求,论文提出了专门设计的模型Parichay,实现了更高的准确率和效率。这种领域定制化的方法是另一个创新点。

关键设计:Chitrapathak-2的关键设计在于对现有OCR模型的微调策略,具体的技术细节包括选择合适的预训练模型、设计有效的微调策略以及优化推理过程以提高效率。Parichay的关键设计在于针对政府文档的特点,设计了专门的网络结构和损失函数,以提高关键字段的提取准确率。具体的参数设置、损失函数和网络结构等细节在论文中可能没有详细展开,属于未来的研究方向。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Chitrapathak-2在泰卢固语OCR任务上取得了最先进的性能(6.69 char ANLS),并在其他印度语系上表现优异,同时实现了3-6倍的加速。Parichay在提取9种印度政府文档中的结构化关键字段时,达到了89.8%的精确匹配分数,证明了其在特定领域OCR任务中的有效性。

🎯 应用场景

该研究成果可广泛应用于印度语系文档的数字化、信息提取和自动化处理。例如,可以用于政府部门的文档管理、金融行业的票据识别、教育领域的教材数字化等。该研究有助于提高印度语系OCR系统的性能和效率,促进相关领域的智能化发展,并为其他多语言OCR系统的设计提供参考。

📄 摘要(原文)

Designing Optical Character Recognition (OCR) systems for India requires balancing linguistic diversity, document heterogeneity, and deployment constraints. In this paper, we study two training strategies for building multilingual OCR systems with Vision-Language Models through the Chitrapathak series. We first follow a popular multimodal approach, pairing a generic vision encoder with a strong multilingual language model and training the system end-to-end for OCR. Alternatively, we explore fine-tuning an existing OCR model, despite not being trained for the target languages. Through extensive evaluation on multilingual Indic OCR benchmarks and deployment-oriented metrics, we find that the second strategy consistently achieves better accuracy-latency trade-offs. Chitrapathak-2 achieves 3-6x speedup over its predecessor with being state-of-the-art (SOTA) in Telugu (6.69 char ANLS) and second best in the rest. In addition, we present Parichay, an independent OCR model series designed specifically for 9 Indian government documents to extract structured key fields, achieving 89.8% Exact Match score with a faster inference. Together, these systems achieve SOTA performance and provide practical guidance for building production-scale OCR pipelines in the Indian context.