Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition

📄 arXiv: 2410.13305v3 📥 PDF

作者: Thao Do, Dinh Phu Tran, An Vo, Daeyoung Kim

分类: cs.CL, cs.CV

发布日期: 2024-10-17 (更新: 2025-02-27)

备注: Accepted in the AAAI 2025 (39th) AISI track. Dataset and repo are in the paper


💡 一句话要点

提出基于LLM和参考书的OCR后处理方法,提升古籍文字识别精度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: OCR后处理 大型语言模型 历史文献识别 变音符号语言 伪标签生成

📋 核心要点

  1. 现有OCR后处理方法在历史文献上表现不佳,因为存在大量OCR错误组合以及现代语料库和古典语料库的差异。
  2. 该论文提出一种利用内容相关的电子书作为参考,结合大型语言模型来校正OCR文本的方法,生成高精度伪标签。
  3. 实验结果表明,该方法在古典越南语书籍OCR数据集上取得了显著提升,平均评分达到8.72,优于现有方法。

📝 摘要(中文)

由于老化文档中存在意外的人工痕迹、时间引起的退化以及缺乏数据集,从带有变音符号的语言的老旧文档中提取精确的OCR文本仍然具有挑战性。虽然已经提出了独立的拼写校正方法,但由于大量的OCR错误组合以及现代语料库和古典语料库之间的差异,它们在历史文档上的表现有限。我们提出了一种利用现有内容集中的电子书作为参考基础,并由大型语言模型支持来校正不完善的OCR生成文本的方法。该技术为变音符号语言生成高精度的伪页面到页面标签,其中细微的笔画在历史条件下构成重大挑战。该流程消除了老化文档中的各种类型的噪声,并解决了诸如缺少字符、单词和无序序列之类的问题。我们的后处理方法生成了一个大型古典越南书籍的OCR数据集,在10分制中获得了8.72的平均评分。这优于最先进的基于Transformer的越南语拼写校正模型,该模型在数据集的抽样子集上评估时得分为7.03。我们还训练了一个基线OCR模型,以评估并将其与众所周知的引擎进行比较。实验结果表明,与广泛使用的开源解决方案相比,我们的基线模型具有优势。生成的数据集将公开发布,以支持未来的研究。

🔬 方法详解

问题定义:论文旨在解决历史文献中变音符号语言的OCR识别精度问题。现有方法,如独立的拼写校正,在处理历史文档时效果有限,因为历史文档存在大量OCR错误组合,且现代语料库与古典语料库存在差异。这些因素导致传统方法难以有效纠正OCR结果中的错误。

核心思路:论文的核心思路是利用现有的、内容相关的电子书作为参考,结合大型语言模型(LLM)进行OCR后处理。通过将OCR结果与参考电子书进行比对,可以有效地纠正OCR文本中的错误,并生成高质量的伪标签数据。这种方法利用了LLM的强大语言理解和生成能力,以及参考书提供的上下文信息,从而提高了OCR后处理的精度。

技术框架:该方法主要包含以下几个阶段:1) OCR引擎生成初始文本;2) 参考电子书准备:收集与待处理文档内容相关的电子书;3) 基于LLM的文本校正:利用LLM将OCR结果与参考电子书进行比对,进行文本校正;4) 伪标签生成:生成高质量的伪标签数据,用于训练或微调OCR模型。

关键创新:该方法最重要的创新点在于利用参考电子书和大型语言模型进行OCR后处理。与传统的拼写校正方法相比,该方法能够更好地利用上下文信息,并有效地纠正OCR结果中的各种错误,包括字符缺失、单词错误和序列错乱等。此外,该方法还能够生成高质量的伪标签数据,用于进一步提升OCR模型的性能。

关键设计:论文中没有详细描述关键参数设置、损失函数或网络结构等技术细节。但是,可以推断,LLM的选择和微调策略、参考电子书的匹配算法、以及伪标签生成过程中的噪声过滤策略是影响最终性能的关键因素。未来的研究可以进一步探索这些方面的优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文提出的方法在古典越南语书籍OCR数据集上取得了显著的性能提升,平均评分达到8.72(10分制),优于最先进的基于Transformer的越南语拼写校正模型(7.03分)。同时,论文还训练了一个基线OCR模型,并与现有开源方案进行了比较,证明了该方法的有效性。生成的数据集将公开发布,为后续研究提供支持。

🎯 应用场景

该研究成果可广泛应用于古籍数字化、历史文献保护、以及其他需要高精度OCR识别的领域。通过提高历史文献的OCR识别精度,可以更好地保存和利用这些珍贵的文化遗产,为历史研究、文化传承和教育提供支持。此外,该方法也可以推广到其他语言和文档类型,具有广泛的应用前景。

📄 摘要(原文)

Extracting fine-grained OCR text from aged documents in diacritic languages remains challenging due to unexpected artifacts, time-induced degradation, and lack of datasets. While standalone spell correction approaches have been proposed, they show limited performance for historical documents due to numerous possible OCR error combinations and differences between modern and classical corpus distributions. We propose a method utilizing available content-focused ebooks as a reference base to correct imperfect OCR-generated text, supported by large language models. This technique generates high-precision pseudo-page-to-page labels for diacritic languages, where small strokes pose significant challenges in historical conditions. The pipeline eliminates various types of noise from aged documents and addresses issues such as missing characters, words, and disordered sequences. Our post-processing method, which generated a large OCR dataset of classical Vietnamese books, achieved a mean grading score of 8.72 on a 10-point scale. This outperformed the state-of-the-art transformer-based Vietnamese spell correction model, which scored 7.03 when evaluated on a sampled subset of the dataset. We also trained a baseline OCR model to assess and compare it with well-known engines. Experimental results demonstrate the strength of our baseline model compared to widely used open-source solutions. The resulting dataset will be released publicly to support future studies.