Unlocking the Archives: Using Large Language Models to Transcribe Handwritten Historical Documents

📄 arXiv: 2411.03340v1 📥 PDF

作者: Mark Humphries, Lianne C. Leddy, Quinn Downton, Meredith Legace, John McConnell, Isabella Murray, Elizabeth Spence

分类: cs.CV, cs.CL, cs.DL, cs.LG

发布日期: 2024-11-02

备注: 29 Pages, 11 Tables, 2 Figures


💡 一句话要点

利用大型语言模型高精度转录手写历史文档,显著提升效率与降低成本

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手写文本识别 大型语言模型 历史文档数字化 多模态学习 开源软件 文本校正

📋 核心要点

  1. 现有手写文本识别软件在处理历史文档时,准确率较低,且成本高昂,效率不足。
  2. 利用大型语言模型的多模态能力,直接转录并校正手写文档,无需复杂的预处理或后处理。
  3. 实验表明,LLM在准确率、速度和成本方面均优于传统HTR软件,尤其在校正任务中表现出色。

📝 摘要(中文)

本研究表明,大型语言模型(LLMs)在转录手写历史文档方面,比专业的手写文本识别(HTR)软件具有更高的准确性,同时速度更快、成本效益更高。我们介绍了一个名为Transcription Pearl的开源软件工具,它利用这些能力,使用来自OpenAI、Anthropic和Google的商业多模态LLM自动转录和校正批量的手写文档。在对18至19世纪英语手写文档的各种语料库的测试中,LLM实现了5.7%至7%的字符错误率(CER)和8.9%至15.9%的词错误率(WER),分别比Transkribus等最先进的专业HTR软件提高了14%和32%。最重要的是,当LLM用于校正由传统HTR软件生成的文本时,它们达到了接近人类水平的准确度,即CER低至1.8%,WER低至3.5%。LLM完成这些任务的速度也快了50倍,成本约为专有HTR程序的1/50。这些结果表明,当LLM被整合到像Transcription Pearl这样的软件工具中时,它们提供了一种可访问、快速且高度准确的方法,用于大规模转录历史手写文档,从而显著简化了数字化过程。

🔬 方法详解

问题定义:该论文旨在解决历史手写文档数字化过程中,传统手写文本识别(HTR)软件准确率低、成本高、效率低的问题。现有HTR方法通常需要大量标注数据进行训练,且对于不同书写风格的泛化能力较弱,导致转录质量难以保证。

核心思路:论文的核心思路是利用大型语言模型(LLMs)强大的多模态理解和生成能力,直接对手写文档图像进行转录和校正。LLM在大量文本数据上预训练,具备丰富的语言知识和上下文理解能力,能够有效处理手写文本的变异性和模糊性。通过将图像和文本信息融合,LLM可以更准确地识别手写字符和单词。

技术框架:该研究使用了一个名为Transcription Pearl的开源软件工具,该工具集成了来自OpenAI、Anthropic和Google的商业多模态LLM。用户可以将批量的手写文档图像输入到Transcription Pearl中,LLM会自动进行转录。此外,该工具还支持使用LLM对现有HTR软件生成的文本进行校正,进一步提高转录准确率。整体流程包括图像输入、LLM转录/校正、结果输出等步骤。

关键创新:最重要的技术创新点在于直接利用预训练的LLM进行手写文本转录和校正,而无需针对特定数据集进行微调或训练。这种方法充分利用了LLM的通用知识和泛化能力,显著降低了数据标注和模型训练的成本。此外,该研究还提出了一个开源软件工具Transcription Pearl,方便用户使用LLM进行手写文档数字化。

关键设计:该研究的关键设计在于选择合适的多模态LLM,并设计有效的提示(prompt)来引导LLM进行转录和校正。具体的参数设置和网络结构取决于所使用的LLM,例如OpenAI的GPT-4、Anthropic的Claude等。损失函数主要关注字符错误率(CER)和词错误率(WER),用于评估转录和校正的准确性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,LLM在手写文档转录任务中取得了显著的性能提升。LLM的字符错误率(CER)为5.7%至7%,词错误率(WER)为8.9%至15.9%,分别比Transkribus等专业HTR软件提高了14%和32%。更重要的是,当LLM用于校正HTR软件生成的文本时,CER低至1.8%,WER低至3.5%,达到了接近人类水平的准确度。同时,LLM完成任务的速度快了50倍,成本约为专有HTR程序的1/50。

🎯 应用场景

该研究成果可广泛应用于历史文献数字化、档案管理、图书馆学等领域。通过利用LLM高效准确地转录手写历史文档,可以加速历史知识的传播和利用,促进相关领域的研究和教育。此外,该技术还可应用于古籍修复、法律文件处理等场景,具有重要的社会价值和文化意义。

📄 摘要(原文)

This study demonstrates that Large Language Models (LLMs) can transcribe historical handwritten documents with significantly higher accuracy than specialized Handwritten Text Recognition (HTR) software, while being faster and more cost-effective. We introduce an open-source software tool called Transcription Pearl that leverages these capabilities to automatically transcribe and correct batches of handwritten documents using commercially available multimodal LLMs from OpenAI, Anthropic, and Google. In tests on a diverse corpus of 18th/19th century English language handwritten documents, LLMs achieved Character Error Rates (CER) of 5.7 to 7% and Word Error Rates (WER) of 8.9 to 15.9%, improvements of 14% and 32% respectively over specialized state-of-the-art HTR software like Transkribus. Most significantly, when LLMs were then used to correct those transcriptions as well as texts generated by conventional HTR software, they achieved near-human levels of accuracy, that is CERs as low as 1.8% and WERs of 3.5%. The LLMs also completed these tasks 50 times faster and at approximately 1/50th the cost of proprietary HTR programs. These results demonstrate that when LLMs are incorporated into software tools like Transcription Pearl, they provide an accessible, fast, and highly accurate method for mass transcription of historical handwritten documents, significantly streamlining the digitization process.