The InviTE Corpus: Annotating Invectives in Tudor English Texts for Computational Modeling

📄 arXiv: 2509.22345v1 📥 PDF

作者: Sophie Spliethoff, Sanne Hoeken, Silke Schwandt, Sina Zarrieß, Özge Alaçam

分类: cs.CL

发布日期: 2025-09-26


💡 一句话要点

构建InviTE语料库,用于计算建模都铎英语文本中的宗教谩骂

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 早期现代英语 宗教谩骂 自然语言处理 语料库构建 BERT模型

📋 核心要点

  1. 现有方法难以有效识别和分析早期现代英语文本中的宗教谩骂,阻碍了对历史背景下语言使用的深入研究。
  2. 论文构建了InviTE语料库,通过专家标注,为计算建模提供了高质量的谩骂语言数据集。
  3. 实验表明,在历史数据上预训练并针对谩骂检测进行微调的BERT模型,性能优于通用LLM。

📝 摘要(中文)

本文旨在将自然语言处理(NLP)技术应用于历史研究,特别是探讨都铎英格兰新教改革背景下的宗教谩骂。我们概述了一个工作流程,该流程从原始数据开始,经过预处理和数据选择,最终到达迭代标注过程。由此,我们推出了InviTE语料库——一个包含近2000个早期现代英语(EModE)句子的语料库,其中富含关于16世纪英格兰谩骂语言的专家标注。随后,我们评估并比较了微调的基于BERT的模型和零样本提示的指令调优大型语言模型(LLM)的性能,结果表明,在历史数据上预训练并针对谩骂检测进行微调的模型表现更优。

🔬 方法详解

问题定义:论文旨在解决早期现代英语(EModE)文本中宗教谩骂的自动识别问题。现有的自然语言处理方法,特别是针对现代英语训练的模型,在处理历史语言数据时表现不佳,缺乏对当时特定语境和语言习惯的理解,导致谩骂识别的准确率较低。

核心思路:论文的核心思路是构建一个专门针对早期现代英语谩骂语言的标注语料库,并利用该语料库微调现有的预训练语言模型。通过专家标注提供高质量的训练数据,使模型能够学习到谩骂语言的特定模式和特征,从而提高识别准确率。

技术框架:整体流程包括:1) 数据收集:从都铎英格兰时期的文本中收集原始数据。2) 预处理和数据选择:对原始数据进行清洗和筛选,选择包含潜在谩骂语言的句子。3) 迭代标注:由专家对选定的句子进行标注,标记出谩骂语言的部分。4) 模型训练和评估:使用标注好的语料库微调BERT等预训练语言模型,并评估其在谩骂识别任务上的性能。5) 模型比较:将微调后的模型与零样本提示的LLM进行比较。

关键创新:该论文的关键创新在于构建了InviTE语料库,这是一个专门针对早期现代英语谩骂语言的标注数据集。该语料库的构建填补了历史语言研究中缺乏高质量标注数据的空白,为计算建模提供了基础。此外,论文还验证了在历史数据上预训练的模型在处理历史语言任务时的优势。

关键设计:语料库包含近2000个早期现代英语句子,由专家进行标注,标注内容包括谩骂语言的类型、程度等。模型训练采用微调策略,使用标注数据对BERT等预训练模型进行微调,优化目标是提高谩骂识别的准确率和召回率。实验中比较了不同模型的性能,包括微调的BERT模型和零样本提示的LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在InviTE语料库上微调的BERT模型在谩骂检测任务上表现优异,显著优于零样本提示的LLM。这验证了在特定领域数据上进行微调对于提升模型性能的重要性,尤其是在处理历史语言等特殊领域时。具体性能数据未在摘要中给出,属于未知信息。

🎯 应用场景

该研究成果可应用于历史文本分析、宗教研究、社会文化研究等领域。通过自动识别和分析历史文本中的谩骂语言,可以更深入地了解当时的社会冲突、宗教纷争和文化价值观。此外,该研究方法也可推广到其他历史语言的研究中,为历史研究提供新的工具和视角。

📄 摘要(原文)

In this paper, we aim at the application of Natural Language Processing (NLP) techniques to historical research endeavors, particularly addressing the study of religious invectives in the context of the Protestant Reformation in Tudor England. We outline a workflow spanning from raw data, through pre-processing and data selection, to an iterative annotation process. As a result, we introduce the InviTE corpus -- a corpus of almost 2000 Early Modern English (EModE) sentences, which are enriched with expert annotations regarding invective language throughout 16th-century England. Subsequently, we assess and compare the performance of fine-tuned BERT-based models and zero-shot prompted instruction-tuned large language models (LLMs), which highlights the superiority of models pre-trained on historical data and fine-tuned to invective detection.