Named Entity Recognition in Historical Italian: The Case of Giacomo Leopardi's Zibaldone

📄 arXiv: 2505.20113v1 📥 PDF

作者: Cristian Santini, Laura Melosi, Emanuele Frontoni

分类: cs.CL, cs.AI

发布日期: 2025-05-26


💡 一句话要点

针对历史意大利语,提出基于BERT和LLaMa的命名实体识别方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 命名实体识别 历史文本 意大利语 BERT LLaMa 自然语言处理 预训练模型

📋 核心要点

  1. 现有命名实体识别方法在处理历史文本时,面临拼写变异、结构不完整和数字化错误等挑战。
  2. 论文提出利用领域特定的BERT模型和LLaMa等大型语言模型,并进行微调,以解决历史文本的命名实体识别问题。
  3. 实验结果表明,微调的NER模型在处理历史人文文本时,即使面对书目参考等挑战性实体类型,也能提供更强大的性能。

📝 摘要(中文)

世界文本遗产的数字化给计算机科学和文学研究带来了重大挑战。迫切需要能够适应历史文本挑战的计算技术,例如拼写变异、结构不完整和数字化错误。大型语言模型(LLM)的兴起彻底改变了自然语言处理,为历史文档上的命名实体识别(NER)提供了有希望的应用。然而,尚未对意大利语文本进行彻底评估。本研究通过提出一个新的具有挑战性的数据集来填补这一空白,该数据集基于19世纪的学术笔记语料库,即Giacomo Leopardi的Zibaldone(1898),其中包含2,899个对人物、地点和文学作品的引用。该数据集用于使用特定领域的基于BERT的模型和最先进的LLM(如LLaMa3.1)进行可重复的实验。结果表明,指令调整模型在处理历史人文文本时遇到多种困难,而微调的NER模型即使在具有挑战性的实体类型(如书目参考)下也能提供更强大的性能。

🔬 方法详解

问题定义:论文旨在解决历史意大利语文本中命名实体识别的难题,特别是针对Giacomo Leopardi的Zibaldone这类包含大量人物、地点和文学作品引用的复杂文本。现有方法难以有效处理历史文本中存在的拼写变异、不完整的结构以及数字化过程中引入的错误,导致识别准确率较低。

核心思路:论文的核心思路是利用预训练语言模型(PLM)的强大表征能力,并通过在特定领域的历史文本数据集上进行微调,使模型能够更好地适应历史语言的特点。同时,探索了指令微调模型在处理此类任务上的能力。

技术框架:论文采用了两种主要的技术框架。一是基于BERT的领域特定模型,通过在Zibaldone数据集上进行微调,使其能够识别历史文本中的命名实体。二是使用诸如LLaMa3.1等大型语言模型,并探索了指令微调和直接应用两种方式。整体流程包括数据预处理、模型选择与训练、以及性能评估等环节。

关键创新:论文的关键创新在于针对历史意大利语文本,构建了一个新的命名实体识别数据集,并系统地评估了不同类型的预训练语言模型在该数据集上的性能。此外,论文还对比了微调和指令微调两种策略在历史文本NER任务上的效果,为后续研究提供了参考。

关键设计:论文的关键设计包括数据集的构建和标注,以及模型微调策略的选择。数据集包含了2,899个对人物、地点和文学作品的引用,并进行了细致的标注。在模型微调方面,论文采用了标准的序列标注方法,并针对BERT模型和LLaMa模型分别进行了参数调整。损失函数采用交叉熵损失函数。

📊 实验亮点

实验结果表明,经过微调的NER模型在Giacomo Leopardi的Zibaldone数据集上表现出更强的鲁棒性,即使面对书目参考等具有挑战性的实体类型也能有效识别。相比之下,指令调整模型在处理历史人文文本时遇到更多困难。该研究为历史文本NER任务提供了重要的基准和参考。

🎯 应用场景

该研究成果可应用于历史文献的自动分析与理解,例如历史人物关系挖掘、历史事件追踪、以及文学作品研究等。通过自动识别历史文本中的命名实体,可以大大提高研究人员的工作效率,并为历史研究提供新的视角和方法。此外,该技术还可以应用于古籍修复、数字化图书馆建设等领域。

📄 摘要(原文)

The increased digitization of world's textual heritage poses significant challenges for both computer science and literary studies. Overall, there is an urgent need of computational techniques able to adapt to the challenges of historical texts, such as orthographic and spelling variations, fragmentary structure and digitization errors. The rise of large language models (LLMs) has revolutionized natural language processing, suggesting promising applications for Named Entity Recognition (NER) on historical documents. In spite of this, no thorough evaluation has been proposed for Italian texts. This research tries to fill the gap by proposing a new challenging dataset for entity extraction based on a corpus of 19th century scholarly notes, i.e. Giacomo Leopardi's Zibaldone (1898), containing 2,899 references to people, locations and literary works. This dataset was used to carry out reproducible experiments with both domain-specific BERT-based models and state-of-the-art LLMs such as LLaMa3.1. Results show that instruction-tuned models encounter multiple difficulties handling historical humanistic texts, while fine-tuned NER models offer more robust performance even with challenging entity types such as bibliographic references.