Historical German Text Normalization Using Type- and Token-Based Language Modeling
作者: Anton Ehrmanntraut
分类: cs.CL
发布日期: 2024-09-04 (更新: 2025-02-25)
备注: 27 pages, 3 figures; minor editorial changes
💡 一句话要点
提出一种结合类型和Token的Transformer语言模型,用于历史德语文本规范化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 历史文本规范化 Transformer模型 语言模型 机器翻译 自然语言处理
📋 核心要点
- 历史文本拼写变异给全文搜索和自然语言处理带来挑战,需要进行正字规范化。
- 提出结合类型和Token的Transformer语言模型,利用编码器-解码器模型和预训练因果语言模型。
- 实验结果表明,该系统达到state-of-the-art的准确率,与大型端到端系统性能相当。
📝 摘要(中文)
本文提出了一种针对1700-1900年间德语文学文本的规范化系统,该系统基于并行语料库进行训练。该系统采用了一种机器学习方法,利用Transformer语言模型,结合编码器-解码器模型来规范化单个词类型,并使用预训练的因果语言模型来调整这些规范化结果,使其适应上下文。广泛的评估表明,该系统提供了最先进的准确性,与更大的、完全端到端的基于句子的规范化系统(微调预训练的Transformer大型语言模型)相当。然而,由于模型难以泛化以及缺乏大量高质量的并行数据,历史文本的规范化仍然是一个挑战。
🔬 方法详解
问题定义:论文旨在解决历史德语文本(约1700-1900年)中拼写变异问题,这些变异使得现代NLP技术难以直接应用。现有方法,特别是完全端到端的句子规范化方法,计算成本高昂,且对数据质量要求较高。缺乏高质量的并行语料库也限制了模型的泛化能力。
核心思路:论文的核心思路是将规范化任务分解为两个阶段:首先,使用encoder-decoder模型对词类型(word type)进行规范化,即对词汇表中的每个词进行规范化;然后,利用预训练的因果语言模型(causal language model)根据上下文调整这些规范化结果,从而提高规范化的准确性和流畅性。这种方法结合了词汇级别的精确性和句子级别的上下文信息。
技术框架:该系统包含两个主要模块:1) 基于Transformer的encoder-decoder模型,用于词类型规范化。该模型以历史拼写的词作为输入,输出规范化的现代拼写。2) 预训练的因果语言模型,用于上下文调整。该模型以包含规范化后的词的句子作为输入,根据上下文对规范化结果进行微调。整体流程是先使用encoder-decoder模型对文本中的每个词进行初步规范化,然后使用因果语言模型对规范化后的文本进行上下文调整。
关键创新:该方法的主要创新在于结合了类型(type)和Token(token)级别的语言模型。传统的端到端方法直接对整个句子进行规范化,计算成本高昂。而该方法首先对词汇表中的每个词进行规范化,然后再根据上下文进行调整,从而降低了计算复杂度,并提高了规范化的准确性。此外,使用预训练的因果语言模型可以更好地捕捉上下文信息,从而提高规范化的流畅性。
关键设计:Encoder-decoder模型采用标准的Transformer架构,损失函数为交叉熵损失。预训练的因果语言模型可以是任何基于Transformer的语言模型,例如GPT系列。关键参数包括Transformer模型的层数、隐藏层大小、注意力头数等。并行语料库的质量对模型的性能至关重要,需要进行仔细的清洗和预处理。
🖼️ 关键图片
📊 实验亮点
该系统在历史德语文本规范化任务上取得了state-of-the-art的准确率,与大型端到端系统性能相当,但计算成本更低。实验结果表明,结合类型和Token级别的语言模型可以有效提高规范化的准确性和流畅性。该方法在资源有限的情况下,也能取得较好的效果。
🎯 应用场景
该研究成果可应用于历史文献数字化、古籍整理、历史语言研究等领域。通过自动规范化历史文本,可以提高全文检索的准确性,方便研究人员查阅和分析历史资料。此外,该技术还可以用于构建历史语言模型,为历史语言研究提供支持。未来,该技术有望应用于更广泛的历史文本处理任务,例如机器翻译、信息抽取等。
📄 摘要(原文)
Historic variations of spelling poses a challenge for full-text search or natural language processing on historical digitized texts. To minimize the gap between the historic orthography and contemporary spelling, usually an automatic orthographic normalization of the historical source material is pursued. This report proposes a normalization system for German literary texts from c. 1700-1900, trained on a parallel corpus. The proposed system makes use of a machine learning approach using Transformer language models, combining an encoder-decoder model to normalize individual word types, and a pre-trained causal language model to adjust these normalizations within their context. An extensive evaluation shows that the proposed system provides state-of-the-art accuracy, comparable with a much larger fully end-to-end sentence-based normalization system, fine-tuning a pre-trained Transformer large language model. However, the normalization of historical text remains a challenge due to difficulties for models to generalize, and the lack of extensive high-quality parallel data.